计算机里的unicode编码和UTF-8的关系

一、unicode的基本信息

目前的统一码字符分为17组编排,每组称为平面(Plane),每平面有65536(216)点代码,但目前只用了少数平面。

Unicode采用16位编码,也就是每个代码点由16位二进制数表示,65536这个数值在计算机科学中具有特殊的含义。它是2的16次方,也就是说,用16个二进制位可以表示的不同取值的数量。

相关参考文档:

unicode发展背景https://zh.wikipedia.org/wiki/Unicode

unicode基本设计https://zh.wikipedia.org/wiki/Unicode%E5%AD%97%E7%AC%A6%E5%B9%B3%E9%9D%A2%E6%98%A0%E5%B0%84

unicode通用字符集https://zh.wikipedia.org/wiki/%E9%80%9A%E7%94%A8%E5%AD%97%E7%AC%A6%E9%9B%86

二、unicode和utf-8的关系

首先强调一下以下几个概念的区别:

  1. 字符:就是我们看到的一个字母或一个汉字、一个标点符号都叫字符。如上边的汉字"一"就是一个字符。
  2. 字符码:在指定的字符集中,一个字符对应唯一一个数字,这个数字就叫字符码。如字符"一",在 Unicode 字符集中,对应的字符码为 \u4e00
  3. 字符集:规定了字符和字符码之间的对应关系。
  4. 字符编码:规定了一个字符码在计算机中如何存储,utf-8就是字符编码。

UTF-8(Unicode Transformation Format-8)是一种编码方案,它用于将Unicode字符编码为字节序列以便存储和传输。UTF-8使用变长编码方式,根据字符的不同范围使用不同长度的字节表示字符。UTF-8编码方案能够表示Unicode字符集中的所有字符,并且兼容ASCII字符集。

在UTF-8编码中,ASCII字符使用一个字节表示,而非ASCII字符(如中文、日文、韩文等)使用多个字节表示。这种编码方式使得UTF-8在存储和传输文本数据时既能保持兼容性,又能有效地节省空间。

在编程中,我们使用Unicode字符集来表示字符,并使用UTF-8编码方案将字符转换为字节序列进行存储和传输。这两者在编程中是密切相关的,但它们是独立的概念,没有关闭的操作。

相关推荐
GIS思维1 个月前
ArcGIS Pro属性表乱码与字段名3个汉字解决方案大总结
字符编码·arcgis·arcgis pro·arcgis pro属性表乱码·shp编码·shp限制
無爲謂2 个月前
1分钟解决Excel打开CSV文件出现乱码问题
utf-8·excel·csv·ansi
闻缺陷则喜何志丹2 个月前
【C++贪心】2712. 使所有字符相等的最小成本|1791
c++·算法·力扣·贪心·字符·最小·相等
red_redemption2 个月前
自由学习记录(8)
java·c++·学习·字符集·file·string
IT规划师2 个月前
C#|.net core 基础 - 删除字符串最后一个字符的七大类N种实现方式
c#·.netcore·字符串·字符
牧码岛3 个月前
物联网之微信小程序控制LED集合、开关灯、闪烁灯、呼吸灯、流水灯、WiFi、http
javascript·字符编码·微信小程序·unicode·字节计算
DieSnowK4 个月前
[Algorithm][综合训练][字符编码][最少的完全平方数][游游的字母串]详细讲解
c++·字符编码·算法·algorithm·综合训练·最少的完全平方数·游游的字母串
DeepAlchemy4 个月前
PHP网页下的注入原理
php·字符集·注入·特殊字符·应用安全
爱看书的小沐6 个月前
ASCII码对照表(Matplotlib颜色对照表)
python·matplotlib·rgb·ascii·colormap·颜色对照表·颜色映射