2024年10月英文字母unicode对照表(常见Unicode编码范围)

 更新时间:2024-10-12

  ⑴英文字母unicode对照表(常见Unicode编码范围

  ⑵常见Unicode编码范围

  ⑶经常我们会用到判断某个字符或者字符串是否包含中文,英文,特殊符号等等。这时候可以通过判断Unicode所在区间来确定某个字符所处类型。当然可以通过直接判断Unicode码,但是鉴于习惯,以下提供的是Unicode码对应的数字区间。毕竟字符的本质也就是通过二进制进行存储编码的而已。汉字:数字:小写字母:大写字母:其他:除上所有转自:常见Unicode编码范围

  ⑷字符编码的Unicode

  ⑸如上ANSI编码条例中所述,世界上存在着多种编码方式,在ANSi编码下,同一个编码值,在不同的编码体系里代表着不同的字。在简体中文系统下,ANSI编码代表GB编码,在日文操作系统下,ANSI编码代表JIS编码,可能最终显示的是中文,也可能显示的是日文。在ANSI编码体系下,要想打开一个文本文件,不但要知道它的编码方式,还要安装有对应编码表,否则就可能无法读取或出现乱码。为什么电子邮件和网页都经常会出现乱码,就是因为信息的提供者可能是日文的ANSI编码体系和信息的读取者可能是中文的编码体系,他们对同一个二进制编码值进行显示,采用了不同的编码,导致乱码。这个问题促使了unicode码的诞生。如果有一种编码,将世界上所有的符号都纳入其中,无论是英文、日文、还是中文等,大家都使用这个编码表,就不会出现编码不匹配现象。每个符号对应一个唯一的编码,乱码问题就不存在了。这就是Unicode编码。Unicode当然是一个很大的集合,现在的规模可以容纳多万个符号。每个符号的编码都不一样,比如,U+表示阿拉伯字母Ain,U+表示英语的大写字母A,“汉”这个字的Unicode编码是U+C。Unicode固然统一了编码方式,但是它的效率不高,比如UCS-(Unicode的标准之一)规定用个字节存储一个符号,那么每个英文字母前都必然有三个字节是,这对存储和传输来说都很耗资源。

  ⑹什么是unicode编码

  ⑺世界上存在着多种编码方式,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它的编码方式,否则用错误的编码方式解读,就会出现乱码。为什么电子邮件常常出现乱码?就是因为发信人和收信人使用的编码方式不一样。可以想象,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是Unicode,就像它的名字都表示的,这是一种所有符号的编码。历史上存在两个试图独立设计Unicode的组织,即国际标准化组织(ISO和一个软件制造商的协会(unicode.。ISO开发了ISO项目,Unicode协会开发了Unicode项目。在年前后,双方都认识到世界不需要两个不兼容的字符集。于是它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。从Unicode.开始,Unicode项目采用了与ISO-相同的字库和字码。目前两个项目仍都存在,并独立地公布各自的标准。Unicode协会现在的最新版本是年的Unicode..。ISO的最新标准是-:。Unicode是一个很大的集合,现在的规模可以容纳多万个符号。每个符号的编码都不一样,比如,U+表示阿拉伯字母Ain,U+表示英语的大写字母A,U+E表示汉字“一“。具体的符号对应表,可以查询unicode.,或者专门的汉字对应表。Unicode的问题需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。比如,汉字“一“的unicode是十六进制数E,转换成二进制数足足有位(,也就是说这个符号的表示至少需要个字节。而表示其他更大的符号,可能需要个字节或者个字节,甚至更多。这里就有两个的问题,一个是,如何才能区别unicode和ascii?计算机怎么知道三个字节表示一个符号,而不是分别表示三个符号呢?第二个问题是,我们已经知道,英文字母只用一个字节表示就够了,如果unicode统一规定,每个符号用三个或四个字节表示,那么每个英文字母前都必然有二到三个字节是,这对于存储空间来说是极大的浪费,文本文件的大小会因此大出二三倍,这是难以接受的。它们造成的直接结果是:出现了unicode的多种存储方式,也就是说有许多种不同的二进制格式,可以用来表示unicode。另外unicode在很长一段时间内无法推广,直到互联网的出现。网络上流行的utf-就是unicode编码的一类应用.如何查询Unicode编码在Windows系统下,你可以在运行栏输入“eudcedit.exe“调用TrueType造字程序,在其中的窗口--参照页,在“代码“栏输入Unicode编码可以查找到相应的字符;在“形状“栏输入字符则可以查找到相应的Unicode编码。

  ⑻Unicode字符是什么

  ⑼Unicode是一种重要的交互和显示的通用字符编码标准,它覆盖了美国、欧洲、中东、非洲、印度、亚洲和太平洋的语言,以及古文和专业符号。Unicode允许交换、处理和显示多语言文本以及公用的专业和数学符号。它希望能够解决多语言的计算,如不同国家的字符标准,但并不是所有的现代或古文都能够获得支持。Unicode字符可以适用于所有已知的编码。Unicode是继ASCII(美国国家交互信息标准编码字符码后的一种新字符编码,它为每一个符号定义一个数字和名称,并指定字符和它的数值(码位,以及该值的二进制位表示法,通过一个十六进制数字和前缀(U定义一个位的数值,如:U+表示A,其唯一的名称是LATINCAPITALLETTERA。但请注意:JavaScript.之前的版本并不支持Unicode编码。Unicode与ASCII和ISO的兼容性Unicode兼容于ASCII字符并被大多数程序所支持,前个Unicode码同ASCII码具有同样的字节值;Unicode字符从U+到U+E等同与ASCII码的x到xE,不同于支持拉丁字母的位ASCII,Unicode对每个字符进行位值的编码设置,它允许几万个字符,例如Unicode.版包含,个字符,它也可以进行扩展,如UTF-允许用位字符组合为一百万或更多的字符,UTF将编码转换为真实的二进制位。Unicode完全兼容于国际标准ISO/IEC-;,它是ISO的一个子集,并支持用两个八进制数的ISOUCS-(UniversalCharacterSet。JavaScript.版本对Unicode的支持意味着您可以任意地在程序中使用本地的字符以及特殊的科学符号。Unicode提供了一种标准的方法来编码多语言文本,并且因为它兼容于ASCII,您也可以随意使用ASCII字符。Unicode转义序列您可以在字符直接量中使用Unicode转义序列,该转义序列由六个ASCII字符组成:?个四个数值的十六进制数。如:?表示版权符号。JavaScript里的每一个Unicode转义序列由一个字符所对应解释。下表是经常使用的特殊字符和它们的Unicode值。类别Unicode值名称格式名称空白(whitespace 制表符《TAB》 垂直制表符《VT》 换页符《FF》空格《SP》行结束符值

  ⑽回车符《CR》其它Unicode转义序列值 退格符《BS》 水平制表符《HT》"双引号“'单引号’\反斜杠/JavaScript对Unicode转义序列的用法不同于Java。首先,在JavaScript中转义序列并没有解释为一个特殊的字符。例如:在一个字符串中的换行符转义序列在函数被解译前并不会终止该字符串,如果在注释中使用转义序列JavaScript将会忽略它。在Java中,如果一个转义序列被用于一个单独的注释行,它将被解译为一个Unicode字符。对于一个字符串直接量,Java编译器将首先解译转义序列。例如:如果在Java中使用一个换行符(

  ⑾,它将会终止该字符串,在Java中将导致一个错误,因为在字符串直接量中不允许换行,您必须使用

  ⑿符;而在JavaScript中,这两者之间并没有区别。用Unicode显示字符您可以在不同的语言中使用Unicode来显示字符或专业符号,但这需要一个客户端能够支持Unicode,例如scapeNavigator.x,并且客户端还得支持Unicode字体以及操作平台的支援。例如Windows它只支持部分的Unicode,另外,为了输入非ASCII字符,您还得有支持所有Unicode字符的输入设备,一个标准的扩展键盘不能够做到这一点,但我们可以用Unicode转义序列来输入Unicode字符。如果您还需了解Unicode更多的信息,请参见UnicodeConsortiumWebsite.版。

  ⒀字符编码的问题,每个程序员都会遇到,深入探索其背后的原理和机制,能让我们少走很多弯路。

  ⒁Unicode(万国码、国际码、统一码、单一码是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字。

  ⒂Unicode发展由非营利机构统一码联盟负责,该机构致力于让Unicode方案替换既有的字符编码方案。因为既有的方案往往空间非常有限,亦不适用于多语环境。

  ⒃统一码联盟在年首次发布了TheUnicodeStandard。

  ⒄在年,Unicode的第十万个字元被引入成为标准之一,该字元被用于马拉雅拉姆语。

  ⒅目前实际应用的统一码版本对应于UCS-,使用位的编码空间。也就是每个字符占用个字节。这样理论上一共最多可以表示的次(即个字符。基本满足各种语言的使用。实际上当前版本的统一码并未完全使用这位编码,而是保留了大量空间以作为特殊使用或将来扩展。

  ⒆最新(但未实际广泛使用的统一码版本定义了个辅助平面,两者合起来至少需要占据位的编码空间,比字节略少。但事实上辅助平面字符仍然占用字节编码空间,与UCS-保持一致。未来版本会涵盖UCS-的所有字符。UCS-是一个更大的尚未填充完全的位字符集,加上恒为的首位,共需占据位,即字节。理论上最多能表示的次方个字符,完全可以涵盖一切语言所用的符号。

  ⒇通用字符集(UniversalCharacterSet是由ISO制定的ISO(或称ISO/IEC标准所定义的标准字符集。

  ⒈通用字符集包括了其他所有字符集。它保证了与其他字符集的双向兼容,即,如果你将任何文本字符串翻译到UCS格式,然后再翻译回原编码,你不会丢失任何信息。

  ⒉UCS包含了已知语言的所有字符。除了拉丁语、希腊语、斯拉夫语、希伯来语、阿拉伯语、亚美尼亚语、格鲁吉亚语,还包括中文、日文、韩文这样的方块文字,UCS还包括大量的图形、印刷、数学、科学符号。

  ⒊ISO/IEC定义了一个位的字符集。

  ⒋并不是所有的系统都需要支持像组合字符这样的的先进机制。因此ISO指定了如下三种实现级别:

  ⒌历史上存在两个独立的尝试创立单一字符集的组织,即:

  ⒍国际标准化组织(ISO于年创建的ISO/IEC

  ⒎统一码联盟和ISO/IEC都同意保持两者标准的码表兼容,并紧密地共同调整任何未来的扩展。

  ⒏Unicode的实现方式不同于编码方式。一个字符的Unicode编码是确定的。但是在实际传输过程中,由于不同系统平台的设计不一定一致,以及出于节省空间的目的,对Unicode编码的实现方式有所不同。

  ⒐Unicode的实现方式称为Unicode转换格式(UnicodeTransformationFormat,简称为UTF。

  ⒑前面说到,Unicode采用个字节来编码文件,但是如果一个仅包含位ASCII字符的Unicode文件,每个字符使用字节就浪费了一般的存储空间,其第一字节的位始终为,这是难以忍受。对于这种情况,可以使用UTF-编码,这是一种变长编码,它将基本位ASCII字符仍用位编码表示,占用一个字节(首位补。而遇到与其他Unicode字符混合的情况,将按一定算法转换,每个字符使用-个字节编码,并利用首位为或进行识别。

  ⒒问题来了,UTF-变长编码格式的出现是为了节省存储空间,变长导致了UTF-的兼容性相应降低。

  ⒓类似的,对未来会出现的需要个字节的辅助平面字符和其他UCS-扩充字符,字节编码的UTF-也需要通过一定的算法进行转换。

  ⒔也就是说,UTF-是为未来准备的变长编码格式。

  ⒕还有就是,在Mac和普通PC上,对于字节顺序的理解是不一致的。这时同一字节流可能会被解释为不同内容,如某字符为十六进制编码E,按两个字节拆分为E和,在Mac上读取时是从低字节开始,那么在MacOS会认为此E编码为E,找到的字符为“奎”,而在Windows上从高字节开始读取,则编码为U+E的字符为“乙”。就是说在Windows下以UTF-编码保存一个字符“乙”,在MacOS环境下打开会显示成“奎”。此类情况说明UTF-的编码顺序若不加以人为定义就可能发生混淆。

  ⒖于是在UTF-编码实现方式中使用了大端序(Big-Endian,简写为UTF-BE、小端序(Little-Endian,简写为UTF-LE的概念,以及可附加的字节顺序记号解决方案,目前在PC机上的Windows系统和Linux系统对于UTF-编码默认使用UTF-LE。目前在PC机上的Windows系统和Linux系统对于UTF-编码默认使用UTF-LE。

  ⒗在WindowsXP附带的记事本,“另存为”对话框可以选择的四种编码方式除去非Unicode编码的ANSI(对于英文系统即ASCII编码,中文系统则为GB或Big外,其余三种为“Unicode”(对应UTF-LE、“Unicodebigendian”(对应UTF-BE和“UTF-”。

  ⒘UTF-,是我们最经常看到的编码格式之一。前面已经简单介绍过,这是一种变长编码格式,变长的目的是节省存储空间。

  ⒙UTF-使用一至六个字节为每个字符编码(年月UTF-被RFC重新规范,只能使用原来Unicode定义的区域,U+到U+FFFF,也就是说最多四个字节。

  ⒚下面介绍其编码规则:

  ⒛个US-ASCII字符只需一个字节编码(Unicode范围由U+至U+F。

  带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文等则需要两个字节编码(Unicode范围由U+至U+FF。

  其他基本多文种平面(BMP中的字元(这包含了大部分常用字,如大部分的汉字使用三个字节编码(Unicode范围由U+至U+FFFF。

  其他极少使用的Unicode辅助平面的字元使用四至六字节编码。(Unicode范围由U+至U+FFFFF使用四字节,Unicode范围由U+至U+FFFFFF使用五字节,Unicode范围由U+至U+FFFFFFF使用六字节。

  对上述提及的第四种字元而言,UTF-使用四至六个字节来编码似乎太耗费资源了。但UTF-对所有常用的字元都可以用三个字节表示,而且它的另一种选择,UTF-编码,对前述的第四种字符同样需要四个字节来编码,所以要决定UTF-或UTF-哪种编码比较有效率,还要视所使用的字元的分布范围而定。

  下面来看看UTF-具体怎么编码各种类型的字符:

  单字节编码,字节由零开始:zzzzzzz。(z取值或,下同

  两字节编码:(yyyyyzzzzzz第一个字节由开始,接着的字节由开始

  字节编码:(xxxxyyyyyyzzzzzz第一个字节由开始,接着的字节由开始。

  字节编码:(wwwxxxxxxyyyyyyzzzzzz将由开始,接着的字节由开始

  UTF-是Unicode字符编码五层次模型的第三层:字符编码表。即把Unicode字符集的抽象码位映射为位长的整数,用于数据存储或传递。Unicode字符的码位,需要个或者个位长的码元来表示,因此这是一个变长表示。

  Unicode的编码空间从U+到+FFFF,共有,,个码位(codepoint可用来映射字符.Unicode的编码空间可以划分为个平面(plane,每个平面包含(,个码位。个平面的码位可表示为从U+xx到U+xxFFFF,其中xx表示十六进制值从到,共计个平面。第一个平面称为基本多语言平面(BasicMultilingualPlane,BMP,或称第零平面(Plane。其他平面称为辅助平面(SupplementaryPlanes。基本多语言平面内,从U+D到U+DFFF之间的码位区段是永久保留不映射到Unicode字符。UTF-就利用保留下来的xD-xDFFF区段的码位来对辅助平面的字符的码位进行编码。

  分平面来介绍UTF-的实现方式:

  第一个Unicode平面(码位从U+至U+FFFF包含了最常用的字符。该平面被称为基本多语言平面,缩写为BMP(BasicMultilingualPlane,BMP。UTF-与UCS-编码这个范围内的码位为比特长的单个码元,数值等价于对应的码位.BMP中的这些码位是仅有的可以在UCS-中表示的码位.

  辅助平面(SupplementaryPlanes中的码位,在UTF-中被编码为一对比特长的码元(即bit,Bytes,称作代理对(surrogatepair),具体方法是:

  算法可理解为:辅助平面中的码位从U+到U+FFFF,共计FFFFF个,即=,,个,需要位来表示。如果用两个位长的整数组成的序列来表示,第一个整数(称为前导代理要容纳上述位的前位,第二个整数(称为后尾代理容纳上述位的后位。还要能根据位整数的值直接判明属于前导整数代理的值的范围(=),还是后尾整数代理的值的范围(也是=。因此,需要在基本多语言平面中保留不对应于Unicode字符的个码位,就足以容纳前导代理与后尾代理所需要的编码空间。这对于基本多语言平面总计个码位来说,仅占.%.

  Unicode标准规定U+D..U+DFFF的值不对应于任何字符.

  Unicode与编码方式

  当然mata也可能会失效,如图

  参考Unicode中UTF-与UTF-编码详解UTF-与Unicode的区别GB编码表gb中的英文字母占几个字节?漫画:什么是字符集和编码?ASCII、UTF-、UTF-、UTF-又是什么?解决GB、GBK、UTF-转换问题Unicode和UTF编码转换

  unicode码是什么

  Unicode码扩展自ASCII字元集。在严格的ASCII中,每个字元用位元表示,或者电脑上普遍使用的每字元有位元宽;而Unicode使用全位元字元集。这使得Unicode能够表示世界上所有的书写语言中可能用於电脑通讯的字元、象形文字和其他符号。Unicode最初打算作为ASCII的补充,可能的话,最终将代替它。考虑到ASCII是电脑中最具支配地位的标准,所以这的确是一个很高的目标。Unicode影响到了电脑工业的每个部分,但也许会对作业系统和程式设计语言的影响最大。从这方面来看,我们已经上路了。WindowsNT从底层支援Unicode。目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(AmericanStandardCodeforInformationInterchange,美国标准信息交换码,它已被国际标准化组织(ISO定为国际标准,称为ISO标准。适用于所有拉丁文字字母,ASCII码有位码和位码两种形式。因为位二进制数可以表示(=种状态:、;而位二进制数可以表示(=种状态:、、、;依次类推,位二进制数可以表示(=种状态,每种状态都唯一地编为一个位的二进制码,对应一个字符(或控制码,这些码可以排列成一个十进制序号~。所以,位ASCII码是用七位二进制数进行编码的,可以表示个字符。第~号及第号(共个)是控制字符或通讯专用字符,如控制符:LF(换行、CR(回车、FF(换页、DEL(删除、BEL(振铃等;通讯专用字符:SOH(文头、EOT(文尾、ACK(确认等;第~号(共个)是字符,其中第~号为~十个阿拉伯数字;~号为个大写英文字母,~号为个小写英文字母,其余为一些标点符号、运算符号等。注意:在计算机的存储单元中,一个ASCII码值占一个字节(个二进制位),其最高位(b)用作奇偶校验位。所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中的个数必须是奇数,若非奇数,则在最高位b添;偶校验规定:正确的代码一个字节中的个数必须是偶数,若非偶数,则在最高位b添。Unicode码:Unicode码也是一种国际标准编码,采用二个字节编码,与ANSI码不兼容。目前,在网络、Windows系统和很多大型软件中得到应用。

  Unicode字符列表的代码显示与描述

  代码显示描述U+空格U+!叹号U+双引号U+#井号U+$价钱/货币符号U+%百分比符号U+&英文“and”的简写符号U+’引号U+(开圆括号U+)关圆括号U+A*星号U+B+加号U+C,逗号U+D-连字号/减号U+E.句号U+F/由右上至左下的斜线U+数字U+数字U+数字U+数字U+数字U+数字U+数字U+数字U+数字U+数字U+A:冒号U+B;分号U+C《小于符号U+D=等于号U+E》大于符号U+F?问号U+英文“at”的简写符号U+A拉丁字母AU+B拉丁字母BU+C拉丁字母CU+D拉丁字母DU+E拉丁字母EU+F拉丁字母FU+G拉丁字母GU+H拉丁字母HU+I拉丁字母IU+AJ拉丁字母JU+BK拉丁字母KU+CL拉丁字母LU+DM拉丁字母MU+EN拉丁字母NU+FO拉丁字母OU+P拉丁字母PU+Q拉丁字母QU+R拉丁字母RU+S拉丁字母SU+T拉丁字母TU+U拉丁字母UU+V拉丁字母VU+W拉丁字母WU+X拉丁字母XU+Y拉丁字母YU+AZ拉丁字母ZU+B关方括号U+E^抑扬(重音符号U+F_底线U+`重音符U+a拉丁字母aU+b拉丁字母bU+c拉丁字母cU+d拉丁字母dU+e拉丁字母eU+f拉丁字母fU+g拉丁字母gU+h拉丁字母hU+i拉丁字母iU+Aj拉丁字母jU+Bk拉丁字母kU+Cl拉丁字母l(L的小写U+Dm拉丁字母mU+En拉丁字母nU+Fo拉丁字母oU+p拉丁字母pU+q拉丁字母qU+r拉丁字母rU+s拉丁字母sU+t拉丁字母tU+u拉丁字母uU+v拉丁字母vU+w拉丁字母wU+x拉丁字母xU+y拉丁字母yU+Az拉丁字母zU+B{开卷曲括号U+C|直棒U+D}关卷曲括号U+E~波浪纹

  常用的unicode字符有哪些

  常用的unicode字符编码范围到FFFF.常用的unicode字符与ASCII类似,就是键盘上看到的英文字母,数字和标点符号,与ASCII不同在于代码的数值。-----------------------Unicode(统一码、万国码、单一码是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。年开始研发,年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。最新版本的Unicode是年月日推出的Unicode..。Unicode的编码方式与ISO的通用字符集(UniversalCharacterSet,UCS概念相对应,目前实际应用的Unicode版本对应于UCS-,使用位的编码空间。也就是每个字符占用个字节。这样理论上一共最多可以表示即个字符。基本满足各种语言的使用。实际上目前版本的Unicode尚未填充满这位编码,保留了大量空间作为特殊使用或将来扩展。

  全角的、(《》以及全角的数字、字母等的unicode是多少

  这些相当于汉字编码跟汉字一样占得空间是个字也就是个字节而一个英文字母是个字节

您可能感兴趣的文章:

相关文章