unicode编码?unicode编码是什么
亲爱的读者们,你是否对unicode编码和unicode编码是什么的关系感到好奇?在本文中,我将深入探讨它们之间的联系,让你对此有更深刻的理解。
Unicode字符是什么
Unicode是一种重要的交互和显示的通用字符编码标准,它覆盖了美国、欧洲、中东、非洲、印度、亚洲和太平洋的语言,以及古文和专业符号。Unicode允许交换、处理和显示多语言文本以及公用的专业和数学符号。它希望能够解决多语言的计算,如不同国家的字符标准,但并不是所有的现代或古文都能够获得支持。
Unicode字符可以适用于所有已知的编码。Unicode是继 ASCII(美国国家交互信息标准编码)字符码后的一种新字符编码,它为每一个符号定义一个数字和名称,并指定字符和它的数值(码位),以及该值的二进制位表示法,通过一个十六进制数字和前缀(U)定义一个16位的数值,如:U+0041表示 A,其唯一的名称是 LATIN CAPITAL LETTER A。但请注意:JavaScript 1.3之前的版本并不支持 Unicode编码。
Unicode与 ASCII和 ISO的兼容性
Unicode兼容于 ASCII字符并被大多数程序所支持,前128个 Unicode码同 ASCII码具有同样的字节值;Unicode字符从 U+0020到 U+007E等同与 ASCII码的 0x20到 0x7E,不同于支持拉丁字母的7位 ASCII,Unicode对每个字符进行16位值的编码设置,它允许几万个字符,例如 Unicode 2.0版包含 38,885个字符,它也可以进行扩展,如 UTF-16允许用16位字符组合为一百万或更多的字符,UTF将编码转换为真实的二进制位。
Unicode完全兼容于国际标准 ISO/IEC 10646-1; 1993,它是 ISO 10646的一个子集,并支持用两个八进制数的 ISO UCS-2(Universal Character Set)。JavaScript 1.3版本对 Unicode的支持意味着您可以任意地在程序中使用本地的字符以及特殊的科学符号。Unicode提供了一种标准的方法来编码多语言文本,并且因为它兼容于 ASCII,您也可以随意使用 ASCII字符。
Unicode转义序列
您可以在字符直接量中使用 Unicode转义序列,该转义序列由六个 ASCII字符组成:\u加上一个四个数值的十六进制数。如:\u00A9表示版权符号。JavaScript里的每一个 Unicode转义序列由一个字符所对应解释。下表是经常使用的特殊字符和它们的 Unicode值。
类别 Unicode值名称格式名称
空白(whitespace)\u0009制表符<TAB>
\u000B垂直制表符<VT>
\u000C换页符<FF>
\u0020空格<SP>
行结束符值\u000A换行符<LF>
\u000D回车符<CR>
其它 Unicode转义序列值\u000b退格符<BS>
\u0009水平制表符<HT>
\u0022双引号"
\u0027单引号'
\u005C反斜杠/
JavaScript对 Unicode转义序列的用法不同于 Java。首先,在 JavaScript中转义序列并没有解释为一个特殊的字符。例如:在一个字符串中的换行符转义序列在函数被解译前并不会终止该字符串,如果在注释中使用转义序列 JavaScript将会忽略它。在 Java中,如果一个转义序列被用于一个单独的注释行,它将被解译为一个 Unicode字符。对于一个字符串直接量,Java编译器将首先解译转义序列。例如:如果在 Java中使用一个换行符(\u000A),它将会终止该字符串,在 Java中将导致一个错误,因为在字符串直接量中不允许换行,您必须使用\n符;而在 JavaScript中,这两者之间并没有区别。
用 Unicode显示字符
您可以在不同的语言中使用 Unicode来显示字符或专业符号,但这需要一个客户端能够支持 Unicode,例如 Netscape Navigator 4.x,并且客户端还得支持 Unicode字体以及操作平台的支援。例如 Windows 95它只支持部分的 Unicode,另外,为了输入非 ASCII字符,您还得有支持所有 Unicode字符的输入设备,一个标准的扩展键盘不能够做到这一点,但我们可以用 Unicode转义序列来输入 Unicode字符。如果您还需了解 Unicode更多的信息,请参见 Unicode Consortium Web site 2.0版。
unicode编码是什么
Unicode是一种字符编码方案,它为每种语言中的每个字符都设定了统一唯一的二进制编码,以实现跨语言、跨平台进行文本转换、处理的要求。
Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。目前的Unicode字符分为17组编排,0x0000至0x10FFFF,每组称为平面(Plane),而每平面拥有65536个码位,共1114112个。
主要内容
为了使Unicode与已存在和广泛使用的旧有编码互相兼容,尤其是差不多所有电脑系统都支援的基本拉丁字母部分,所以Unicode的首256字符仍旧保留给ISO8859-1所定义的字符,使既有的西欧语系文字的转换不需特别考量。
另方面因相同的原因,Unicode把大量相同的字符重复编到不同的字符码中去,使得旧有纷杂的编码方式得以和Unicode编码间互相直接转换,而不会遗失任何资讯。
举例来说,全角格式区段包含了主要的拉丁字母的全角格式,在中文、日文、以及韩文字形当中,这些字符以全角的方式来呈现,而不以常见的半角形式显示,这对竖排文字和等宽排列文字有重要作用。
unicode字符集是多少位的字符编码
unicode编码用2个字节存储字符。
2个字节=16个bit,即16位二进制编码。
注意:一个bit=一位二进制。
最初的unicode编码是固定长度的,16位,也就是2两个字节代表一个字符,这样一共可以表示65536个字符。显然,这样要表示各种语言中所有的字符是远远不够的。
Unicode4.0规范考虑到了这种情况,定义了一组附加字符编码,附加字符编码采用2个16位来表示,这样最多可以定义1048576个附加字符,目前unicode4.0只定义了45960个附加字符。
扩展资料:
字母和数字的 ASCII码的记忆是非常简单的。我们只要记住了一个字母或数字的 ASCII码(例如记住 A为 65, 0的 ASCII码为 48),知道相应的大小写字母之间差 32,就可以推算出其余字母、数字的 ASCII码。
虽然标准 ASCII码是 7位编码,但由于计算机基本处理单位为字节( 1byte= 8bit),所以一般仍以一个字节来存放一个 ASCII字符。每一个字节中多余出来的一位(最高位)在计算机内部通常保持为 0(在数据传输时可用作奇偶校验位)。
参考资料来源:百度百科-字符编码
常用Unicode编码
unicode编码范围:
汉字:[0x4e00,0x9fa5](或十进制[19968,40869])
数字:[0x30,0x39](或十进制[48, 57])
小写字母:[0x61,0x7a](或十进制[97, 122])
大写字母:[0x41,0x5a](或十进制[65, 90])
汉字编码范围:\u4E00-\u9FA5
双字节字符编码范围:\u0391-\uFFE5
双字节字符编码范围
汉字unicode编码表
一般使用2w基本汉字就够了
|字符集|字数| Unicode编码|
|基本汉字| 20902字| 4E00-9FA5|
|基本汉字补充| 38字| 9FA6-9FCB|
|扩展A| 6582字| 3400-4DB5|
|扩展B| 42711字| 20000-2A6D6|
|扩展C| 4149字| 2A700-2B734|
|扩展D| 222字| 2B740-2B81D|
|康熙部首| 214字| 2F00-2FD5|
|部首扩展| 115字| 2E80-2EF3|
|兼容汉字| 477字| F900-FAD9|
|兼容扩展| 542字| 2F800-2FA1D|
| PUA(GBK)部件| 81字| E815-E86F|
|部件扩展| 452字| E400-E5E8|
| PUA增补| 207字| E600-E6CF|
|汉字笔画| 36字| 31C0-31E3|
|汉字结构| 12字| 2FF0-2FFB|
|汉语注音| 22字| 3105-3120|
|注音扩展| 22字| 31A0-31BA|
|〇| 1字| 3007|
非常感谢您的阅读!我们希望本文对于解决您关于unicode编码的问题提供了一些有价值的信息。如果您还有其他疑问,我们将很乐意为您提供进一步的帮助。