农业资讯网
当前位置: 首页 农业百科

空字符对应的unicode编码(Unicode字符集和UTF-8)

时间:2023-06-03 作者: 小编 阅读量: 1 栏目名: 农业百科

Unicode字符集和UTF-8ASCII码在较早的计算时代,ASCII代码用于表示字符英语只有26个字母和一些其他特殊字符和符号下表是ASCII码对照表,包含字符及其相应的十进制和十六进制值ASCII码对照表从上表可以推断出,AS。

ASCII码

在较早的计算时代,ASCII 代码用于表示字符。英语只有 26 个字母和一些其他特殊字符和符号。

下表是 ASCII 码对照表,包含字符及其相应的十进制和十六进制值。

ASCII 码对照表

从上表可以推断出,ASCII 值可以在十进制数系统中表示为 0 到 127。让我们看看 0 和 127 在 8 位字节中的二进制表示。

0 表示为

0 的二进制表示

127表示为

127 二进制表示

从上面的二进制表示可以推断,十进制值 0 到 127 可以使用 7 位来表示,而第 8 位是空闲的。

警告 从这个地方起,混乱开始了。

人们想出了不同的方法来使用剩余的第八位,从而使其可以表示从 128 到 255 的十进制值。那么冲突就发生了。例如,越南人使用十进制值 182 来表示越南字母 ờ,而印度人使用相同的值 182 来表示印地语字母घ。因此,如果印度人写的电子邮件包含字母घ并且它被越南人阅读,那么将会显示为ờ。显然这不是预期的效果。

那么如何解决这个问题呢,接下来就该 unicode 出场了。


Unicode 和代码点

Unicode 字符集将世界上的每个字符都映射到一个唯一的数字上。这确保了不同语言的字母之间没有冲突。这些数字与平台无关。

这些唯一的数字在 unicode 术语中称为代码点。

让我们看看它们是如何被引用的。

使用代码点引用 拉丁字符ṍ

U 1E4D

U 表示 unicode,1E4D是分配给字符 ṍ 的十六进制值。

英文字母A表示为 U 0041

好了,了解了这些,接下来该是重头戏了


UTF-8 编码

现在我们知道什么是 unicode 以及如何将世界上的每个字母分配给一个唯一的代码点,我们需要一种在计算机内存中表示这些代码点的方法。这就是字符编码登场的地方。 其中最为人们所熟知的就是 UTF-8 编码。

UTF-8 编码是一种大小可变的编码方案,用于表示内存中的 unicode 代码点。大小可变编码意味着代码点根据其大小使用 1、2、3 或 4 个字节表示。

UTF-8 1 字节编码

1个字节编码的标识是第一个比特位为0。

UTF8 1字节编码表示方式

英文字母A的 unicode 代码点为 U 0041。它的二进制表示是1000001。

A 以 UTF-8 编码表示为

01000001

红色的0位表示使用1字节编码,其余位代表码位

UTF-8 2 字节编码

代码点为 U 00F1 的拉丁字母ñ的二进制值11110001。该值大于可以使用 1 字节编码格式表示的最大值,因此该字母表将使用 UTF-8 2 字节编码表示。

2 字节编码的方式是由第一个字节比特位中的高三位的比特序列110和第二个字节比特位中的高二位的比特序列10来标识。

UTF8 2字节编码方式表示

Unicode 代码点U 00F1的二进制值是1111 0001。用2字节编码格式填充这些位,我们得到如下所示的ñ的UTF-8 2字节编码表示。

填充是从映射到第二个字节的最低有效位的代码点的最低有效位开始完成的。

1100001110110001

蓝色的二进制数字11110001代表码位U 00F1的二进制值,红色的是2字节编码标识符。黑色零用于填充字节中的空位。

UTF-8 3 字节编码

具有代码点U 1E4D的拉丁字符ṍ使用 3 字节编码表示,因为它大于使用 2 字节编码可以表示的最大值。

3 字节编码通过第一个字节中的位序列1110 和第二个和第三个字节中的 10的存在来标识。

UTF8 3字节编码表示

ṍ 十六进制代码点 0x1E4D,对应的二进制值为1111001001101。将这些位填充到上述编码格式中,我们得到了下面所示的 ṍ 的UTF-8 3 字节编码表示。

填充是从映射到第三个字节的最低有效位的代码点的最低有效位开始进行的。

111000011011100110001101

红色位表示 3 字节编码,黑色位是填充位,蓝色位表示代码点。

UTF-8 4 字节编码

表情符号的Unicode代码点U 1F62D。这大于可以使用 3 字节编码表示的最大值,因此将使用 4 字节编码表示。

4 字节编码通过第一个字节中的11110和随后的第二个、第三个和第四个字节中的10来标识。

UTF8 4字节编码表示

U 1F62D的二进制表示是11111011000101101。将这些位填入上述编码格式,我们就得到了的UTF-8 4字节编码。代码点的最低有效位映射到第四个字节的最低有效位,依此类推。

11110000100111111001100010101101

红色位标识4字节编码格式,蓝色位是实际码位,黑色位是填充位。

上面我们分别对 UTF-8 的几种编码方式进行了详细的介绍。接下来我们顺带介绍一下 UTF-16 和 UTF-32 编码方式


UTF-16 编码

UTF-16 编码是一种可变字节编码方案,它使用 2 个字节或 4 个字节来表示 unicode 代码点。所有现代语言的大多数字符都使用 2 个字节表示。

拉丁字母ñ的Unicode代码点为 U 00F1 二进制表示为 11110001 。其 UTF-16 编码表示为

0000000011110001

上面的表示是在 Big Endian 字节顺序模式下(最高有效位在前)。


UTF-32 编码

UTF-32 编码是一种固定字节编码方案,它使用 4 个字节来表示所有代码点。

英文字母 A 具有 Unicode 代码点 U 0041。它的二进制表示是 1000001

它以UTF-32编码表示,如下所示,

00000000 00000000 00000000 01000001

蓝色位是代码点的二进制表示。上面的表示是在 Big Endian 字节顺序模式下。

以上就是关于字符集和字符编码的所有内容。

,
    推荐阅读
  • 我国的儿童感觉统合失调率为多少(儿童感觉统合失调的危害)

    大脑将这些讯息整合,作出反应再透过神经组织,指挥身体感官的动作,称为运动学习。平衡感是人类行动的基础平衡能力主要来自骨架和中枢神经的功能,并在中耳的半规管组成辨识神经体系,以协调身体和地心引力的能力。最重要是找出其根本的原因,由于孩子行为上大多已产生多重困难,不易判断真正原因及其不足程度。

  • 碱性水果有什么(碱性水果多吗)

    接下来我们就一起去了解一下吧!碱性水果有什么绝大多数水果都是偏碱性的,像香蕉,苹果,梨,葡萄,山楂,橘子,桃子。另外从中医角度这些水果又有不同的凉热属性,与中医上各人进行评估不同的属性相对应。但西医认为只要没有明显的胃肠道刺激情况这些水果都是可以选择。

  • 进出鹿泉区防疫政策(鹿泉区疫情防控要求)

    二、抵鹿后、早检测为及早筛查发现潜在疫情风险,请义乌、三亚等省外涉疫地区来鹿返鹿人员和7月30日以来有新乐市旅居史来鹿返鹿人员抵鹿后前3天每天进行免费核酸检测,并在第5天、第7天各进行一次免费核酸检测;倡导省外非涉疫地区来鹿返鹿人员抵鹿后前3天每天进行免费核酸检测,并提倡第5天再进行一次免费核酸检测,期间不参加聚集性活动,不前往人员密集场所,不乘坐公共交通工具,避免交叉感染风险。

  • 成年的猫咪能吃化毛膏吗(猫咪多大可以吃化毛膏)

    猫咪化毛膏一般是需要在猫咪开始学会舔毛的时候开始吃,通常是在三个月左右,它们会自己整理自己的毛发,从中舔入不少的猫毛,这就是毛球形成的主要因素。

  • 广东黑凉粉怎么做好吃(黑凉粉简单做法)

    下面更多详细答案一起来看看吧!广东黑凉粉怎么做好吃材料:准备好1盒凉粉粉,100克,水2300毫升,约正常碗9碗水。先取2碗冷水把凉粉粉开成无核的糊状,再用剩余的7碗冷水煮沸。把刚刚搅拌的糊状凉粉浆,慢慢到如煮沸的锅中,并不停的搅匀,直到煮沸。关火,充分冷凝后成固体,用木刀切成大四方快,放入冰箱冷藏。想吃的时候,取出,用木刀切入小方块,根据自己的口味加入蜂蜜或冰糖或蔗糖水,还可以加入自己喜欢吃的水果。

  • 月季花的特点,附外形介绍 月季花的样子和特点是什么

    顶部生长的小叶柄较长,侧面生长的小叶柄较短。北方花期是4-10月,南方花期是3-11月。

  • 齐白石画荷花图大全(齐白石画红荷卖690万)

    这幅《五色荷花》创作于1935年,在2017年以3220万的天价成交,足足比齐白石的《荷花蜻蜓》高出了近5倍。2,虽然同是写意荷花,齐白石的荷花重意趣,对形态的描写没有过多刻画,而张大千的荷花,除了荷叶之外,几乎每一朵荷花都刻画得更加细腻、美观一些。

  • 课后服务是什么意思(课后服务的解释)

    课后服务的解释课后服务属于学校教育的延伸,是为了解决放学早下班晚“时间差”问题而衍生的一种服务,以贝尔安亲为首的课后服务机构正迅速崛起,这种机构提供的学生托管、作业辅导、文体活动、娱乐游戏、兴趣培养、社会实践等服务。

  • 树藤怎么炒好吃(怎么炒树藤)

    我们一起去了解并探讨一下这个问题吧!树藤怎么炒好吃藤藤菜300g,蚝油1勺,干辣椒3个,蒜2瓣,食盐3g,植物油30g,将藤藤菜用水浸泡30分钟,然后择叶,洗净,沥干。将蒜去衣,切蒂,切成蒜片,干辣椒切成细丝。放入蒜片、辣椒丝爆香。快炒至熟,下适量食盐和蚝油调味,即可关火上碟。

  • 二手三门版普拉多转让(司法拍卖不容错过)

    司法拍卖不容错过江津法院司法拍卖拍品上新啦!1.登录淘宝网司法拍卖网络平台http://sf.taobao.com2.扫码拍品下的二维码即可进入拍卖界面还在等什么呢?本周有什么新拍品,赶紧来看看吧!1拍卖标的:重庆市。