农业资讯网
当前位置: 首页 农业百科

空字符对应的unicode编码(Unicode字符集和UTF-8)

时间:2023-06-03 作者: 小编 阅读量: 1 栏目名: 农业百科

Unicode字符集和UTF-8ASCII码在较早的计算时代,ASCII代码用于表示字符英语只有26个字母和一些其他特殊字符和符号下表是ASCII码对照表,包含字符及其相应的十进制和十六进制值ASCII码对照表从上表可以推断出,AS。

ASCII码

在较早的计算时代,ASCII 代码用于表示字符。英语只有 26 个字母和一些其他特殊字符和符号。

下表是 ASCII 码对照表,包含字符及其相应的十进制和十六进制值。

ASCII 码对照表

从上表可以推断出,ASCII 值可以在十进制数系统中表示为 0 到 127。让我们看看 0 和 127 在 8 位字节中的二进制表示。

0 表示为

0 的二进制表示

127表示为

127 二进制表示

从上面的二进制表示可以推断,十进制值 0 到 127 可以使用 7 位来表示,而第 8 位是空闲的。

警告 从这个地方起,混乱开始了。

人们想出了不同的方法来使用剩余的第八位,从而使其可以表示从 128 到 255 的十进制值。那么冲突就发生了。例如,越南人使用十进制值 182 来表示越南字母 ờ,而印度人使用相同的值 182 来表示印地语字母घ。因此,如果印度人写的电子邮件包含字母घ并且它被越南人阅读,那么将会显示为ờ。显然这不是预期的效果。

那么如何解决这个问题呢,接下来就该 unicode 出场了。


Unicode 和代码点

Unicode 字符集将世界上的每个字符都映射到一个唯一的数字上。这确保了不同语言的字母之间没有冲突。这些数字与平台无关。

这些唯一的数字在 unicode 术语中称为代码点。

让我们看看它们是如何被引用的。

使用代码点引用 拉丁字符ṍ

U 1E4D

U 表示 unicode,1E4D是分配给字符 ṍ 的十六进制值。

英文字母A表示为 U 0041

好了,了解了这些,接下来该是重头戏了


UTF-8 编码

现在我们知道什么是 unicode 以及如何将世界上的每个字母分配给一个唯一的代码点,我们需要一种在计算机内存中表示这些代码点的方法。这就是字符编码登场的地方。 其中最为人们所熟知的就是 UTF-8 编码。

UTF-8 编码是一种大小可变的编码方案,用于表示内存中的 unicode 代码点。大小可变编码意味着代码点根据其大小使用 1、2、3 或 4 个字节表示。

UTF-8 1 字节编码

1个字节编码的标识是第一个比特位为0。

UTF8 1字节编码表示方式

英文字母A的 unicode 代码点为 U 0041。它的二进制表示是1000001。

A 以 UTF-8 编码表示为

01000001

红色的0位表示使用1字节编码,其余位代表码位

UTF-8 2 字节编码

代码点为 U 00F1 的拉丁字母ñ的二进制值11110001。该值大于可以使用 1 字节编码格式表示的最大值,因此该字母表将使用 UTF-8 2 字节编码表示。

2 字节编码的方式是由第一个字节比特位中的高三位的比特序列110和第二个字节比特位中的高二位的比特序列10来标识。

UTF8 2字节编码方式表示

Unicode 代码点U 00F1的二进制值是1111 0001。用2字节编码格式填充这些位,我们得到如下所示的ñ的UTF-8 2字节编码表示。

填充是从映射到第二个字节的最低有效位的代码点的最低有效位开始完成的。

1100001110110001

蓝色的二进制数字11110001代表码位U 00F1的二进制值,红色的是2字节编码标识符。黑色零用于填充字节中的空位。

UTF-8 3 字节编码

具有代码点U 1E4D的拉丁字符ṍ使用 3 字节编码表示,因为它大于使用 2 字节编码可以表示的最大值。

3 字节编码通过第一个字节中的位序列1110 和第二个和第三个字节中的 10的存在来标识。

UTF8 3字节编码表示

ṍ 十六进制代码点 0x1E4D,对应的二进制值为1111001001101。将这些位填充到上述编码格式中,我们得到了下面所示的 ṍ 的UTF-8 3 字节编码表示。

填充是从映射到第三个字节的最低有效位的代码点的最低有效位开始进行的。

111000011011100110001101

红色位表示 3 字节编码,黑色位是填充位,蓝色位表示代码点。

UTF-8 4 字节编码

表情符号的Unicode代码点U 1F62D。这大于可以使用 3 字节编码表示的最大值,因此将使用 4 字节编码表示。

4 字节编码通过第一个字节中的11110和随后的第二个、第三个和第四个字节中的10来标识。

UTF8 4字节编码表示

U 1F62D的二进制表示是11111011000101101。将这些位填入上述编码格式,我们就得到了的UTF-8 4字节编码。代码点的最低有效位映射到第四个字节的最低有效位,依此类推。

11110000100111111001100010101101

红色位标识4字节编码格式,蓝色位是实际码位,黑色位是填充位。

上面我们分别对 UTF-8 的几种编码方式进行了详细的介绍。接下来我们顺带介绍一下 UTF-16 和 UTF-32 编码方式


UTF-16 编码

UTF-16 编码是一种可变字节编码方案,它使用 2 个字节或 4 个字节来表示 unicode 代码点。所有现代语言的大多数字符都使用 2 个字节表示。

拉丁字母ñ的Unicode代码点为 U 00F1 二进制表示为 11110001 。其 UTF-16 编码表示为

0000000011110001

上面的表示是在 Big Endian 字节顺序模式下(最高有效位在前)。


UTF-32 编码

UTF-32 编码是一种固定字节编码方案,它使用 4 个字节来表示所有代码点。

英文字母 A 具有 Unicode 代码点 U 0041。它的二进制表示是 1000001

它以UTF-32编码表示,如下所示,

00000000 00000000 00000000 01000001

蓝色位是代码点的二进制表示。上面的表示是在 Big Endian 字节顺序模式下。

以上就是关于字符集和字符编码的所有内容。

,
    推荐阅读
  • 奥迪被男孩儿划伤家长赔了3500(反转10岁男孩划伤)

    楚天都市报记者:刘闪近日,重庆沙坪坝区石井坡一辆奥迪车被划,车主报警后发现一位10岁男孩有“最大嫌疑”,男孩家长向车主赔偿了3500元。邹兴华:10月7日下午2点多,车主王先生报警反映,他的车被划了。鉴于孩子是未成年,我们将当事双方带回派出所进行调解。最终,由刘先生赔偿车主王先生车辆修理费用3500元。能够不把孩子的情绪当小事,不把孩子的自尊当小事,邹警官不仅是优秀的警察,也是优秀的“大人”。

  • 索的组词(索的组词有哪些)

    下面希望有你要的答案,我们一起来看看吧!索的组词索的组词:离群索居、勒索、搜索、索性、不假思索、按图索骥、搜索枯肠、敲诈勒索、线索、摸索、索取、索要、智尽能索、探赜索隐、兴味索然扥。索是一个汉字,读作suǒ,本意是指绳子,搜寻,讨要,毫无,单独等引申义是。

  • 谷歌seo实例详解(外贸自建站Google排名上不去)

    在做外贸网站时,我们很容易遇到排名不再上升的时期,其实谷歌优化主要也是做好几个内容,做好细节。2,GPB外链服务做谷歌优化外链是必不可少的,尤其是优质的GPB外链,如果自己不专业,最好是请人做好这一块。你像现在非常好的GPB外链,效果是很不错的。

  • r11s深度评测oppo(测评OPPOR11究竟好在哪儿)

    据调查机构消息,2016年OPPO挤进了国产手机的前三名。R9系列产品更是销量突破2000万台,在国内那可谓是傲视群雄,成为了年度最佳。然而机身背面和iPhone7Plus超高相似度在网络上形成了几乎一面倒的差评。但不可否认是,在抄袭iPhone7Plus设计的同时,OPPO还是做出了显著的进步。显示方面,5.5英寸1080p分辨率的AMOLED屏幕正是能够做到轻薄机身的基础。

  • 纸上谈兵主人公(单刀赴会的主人公是谁)

    赵括之所以出名,是因为长平之战前夕,赵王中了秦国的离间计,临时撤换了廉颇,派赵括出战。那时候,东方的魏、齐等国相继衰弱,赵国成为有可能对抗秦国的唯一一股力量。一气之下,赵奢斩杀了平原君家的九个管家,以示惩戒。当时,廉颇和乐乘都认为道路艰险,救援难度大,不应出兵。恃才而骄、不重实际让赵奢对这个儿子的担心日益加重。赵括要用行动证明自己并不是只会纸上谈兵。

  • 女人善良优雅经典句子(这些都合适摘录)

    女人善良优雅经典句子红尘中,你想做与众不同的时尚女人吗?那份独到的韵味,当然需要一款清新淡雅的饰品来点缀属于你的风情。一种是太阳,一种是你努力的模样!清澈明亮的瞳孔,弯弯的柳眉,长长的睫毛微微地颤动着,白皙无瑕的皮肤透出淡淡红粉,薄薄的双唇如玫瑰花瓣娇嫩欲滴。女人,越是处在逆境的时候,越要把背梁骨挺得直直的,脸上始终持着明亮的笑容,身上穿上合体的衣服,在人生的舞台上展示自我顽强的魅力。

  • 灭蚊灯灭蚊到底有没有效果(灭蚊灯管用吗要知道)

    我们看到灭蚊灯的一些宣传上,商家打的都是紫外线来灭蚊这种宣传语,权威部门已经做出结论,紫外线灭蚊其实是一个笑话。你还会相信紫外线灭蚊能有效吗?说了这么多,其实就是想告诉大家,虽然紫外线灭蚊灯没有什么效果,但是市面上其它的一些物理性的灭蚊灯,还是有一定效果的。

  • 战疫必胜全靠自我(并肩战疫守望相助)

    截至2月25日,江西省已累计派出9批11支医疗队,共计1233名队员投入到支援湖北疫情防治工作中。截至2月25日,江西援随医疗队接管12个病区,累计管理患者526例,其中疑似患者46例,确诊患者480例,累计重症患者25例,危重症患者39例;累计出院患者235例,其中疑似患者出院46例。2月14日,一则暖心的消息刷屏网络:江西援随医疗队接生疫情期间首例新生儿。而这也是疫情期间江西医疗队帮助湖北接生的第一个新生儿。

  • 巧克力怎么吃(正确吃巧克力的技巧)

    下面希望有你要的答案,我们一起来看看吧!巧克力怎么吃吃巧克力后可以再来一杯红茶,餐后3小时左右吃上两块巧克力能快速缓解饥饿感,也可以补充能量。但巧克力毕竟是高营养食品,应该把它当作日常饮食中的一部分而不是额外的零食,以免热量超标,感到饥饿又没有时间吃饭时可以吃几小块黑巧克力。

  • 洗衣机哪个品牌最好最实用(洗衣机十大排名)

    空气阻尼吊杆能够减少碰撞降低噪音,改善了波轮洗衣机噪音大的缺陷,过滤网能够将毛绒脏污一网打尽,避免了二次污染,同时延长了洗衣机寿命。桶自洁程序让机器可以自动清洁内外桶壁的污垢,避免了二次污染。