计算机里的unicode编码和UTF-8的关系

一、unicode的基本信息

目前的统一码字符分为17组编排,每组称为平面(Plane),每平面有65536(216)点代码,但目前只用了少数平面。

Unicode采用16位编码,也就是每个代码点由16位二进制数表示,65536这个数值在计算机科学中具有特殊的含义。它是2的16次方,也就是说,用16个二进制位可以表示的不同取值的数量。

相关参考文档:

unicode发展背景https://zh.wikipedia.org/wiki/Unicode

unicode基本设计https://zh.wikipedia.org/wiki/Unicode%E5%AD%97%E7%AC%A6%E5%B9%B3%E9%9D%A2%E6%98%A0%E5%B0%84

unicode通用字符集https://zh.wikipedia.org/wiki/%E9%80%9A%E7%94%A8%E5%AD%97%E7%AC%A6%E9%9B%86

二、unicode和utf-8的关系

首先强调一下以下几个概念的区别:

  1. 字符:就是我们看到的一个字母或一个汉字、一个标点符号都叫字符。如上边的汉字"一"就是一个字符。
  2. 字符码:在指定的字符集中,一个字符对应唯一一个数字,这个数字就叫字符码。如字符"一",在 Unicode 字符集中,对应的字符码为 \u4e00
  3. 字符集:规定了字符和字符码之间的对应关系。
  4. 字符编码:规定了一个字符码在计算机中如何存储,utf-8就是字符编码。

UTF-8(Unicode Transformation Format-8)是一种编码方案,它用于将Unicode字符编码为字节序列以便存储和传输。UTF-8使用变长编码方式,根据字符的不同范围使用不同长度的字节表示字符。UTF-8编码方案能够表示Unicode字符集中的所有字符,并且兼容ASCII字符集。

在UTF-8编码中,ASCII字符使用一个字节表示,而非ASCII字符(如中文、日文、韩文等)使用多个字节表示。这种编码方式使得UTF-8在存储和传输文本数据时既能保持兼容性,又能有效地节省空间。

在编程中,我们使用Unicode字符集来表示字符,并使用UTF-8编码方案将字符转换为字节序列进行存储和传输。这两者在编程中是密切相关的,但它们是独立的概念,没有关闭的操作。

相关推荐
Mint69 天前
深入解析Java和Go语言中String与byte数组的转换原理
java·utf-8·golang·unicode·string·rune·byte
Mint615 天前
为什么Java默认使用UTF-16,Golang默认使用UTF-8呢?
java·开发语言·字符编码·utf-8·golang·utf-16·历史原因
%d%d21 个月前
常见的几种编码方式
开发语言·c++·utf-8·编码·中文
源代码•宸3 个月前
高效解决Visual Studio Code中文乱码问题
utf-8·经验分享·中文乱码·visual studio code·gbk
Amd7943 个月前
深入理解中文编码:原理、应用与实践
字符集·中文编码·未来趋势·安全加密·转换技术·存储处理·编码标准
沛沛霖4 个月前
数字编码与字符编码:解锁编程世界的基石
python·编码·字符
Amd7945 个月前
ASCII编码的诞生:解决字符标准化与跨平台通信的需求
字符集·跨平台·兼容性·标准化·影响力·简洁性·ascii编码
洛阳鱼紫怡6 个月前
[字符编码]windwos下使用libiconv转换编码格式(二)
字符编码
小小工匠7 个月前
庖丁解牛:NIO核心概念与机制详解 07 _ 字符集
字符集·nio