计算机里的unicode编码和UTF-8的关系

一、unicode的基本信息

目前的统一码字符分为17组编排,每组称为平面(Plane),每平面有65536(216)点代码,但目前只用了少数平面。

Unicode采用16位编码,也就是每个代码点由16位二进制数表示,65536这个数值在计算机科学中具有特殊的含义。它是2的16次方,也就是说,用16个二进制位可以表示的不同取值的数量。

相关参考文档:

unicode发展背景https://zh.wikipedia.org/wiki/Unicode

unicode基本设计https://zh.wikipedia.org/wiki/Unicode%E5%AD%97%E7%AC%A6%E5%B9%B3%E9%9D%A2%E6%98%A0%E5%B0%84

unicode通用字符集https://zh.wikipedia.org/wiki/%E9%80%9A%E7%94%A8%E5%AD%97%E7%AC%A6%E9%9B%86

二、unicode和utf-8的关系

首先强调一下以下几个概念的区别:

  1. 字符:就是我们看到的一个字母或一个汉字、一个标点符号都叫字符。如上边的汉字"一"就是一个字符。
  2. 字符码:在指定的字符集中,一个字符对应唯一一个数字,这个数字就叫字符码。如字符"一",在 Unicode 字符集中,对应的字符码为 \u4e00
  3. 字符集:规定了字符和字符码之间的对应关系。
  4. 字符编码:规定了一个字符码在计算机中如何存储,utf-8就是字符编码。

UTF-8(Unicode Transformation Format-8)是一种编码方案,它用于将Unicode字符编码为字节序列以便存储和传输。UTF-8使用变长编码方式,根据字符的不同范围使用不同长度的字节表示字符。UTF-8编码方案能够表示Unicode字符集中的所有字符,并且兼容ASCII字符集。

在UTF-8编码中,ASCII字符使用一个字节表示,而非ASCII字符(如中文、日文、韩文等)使用多个字节表示。这种编码方式使得UTF-8在存储和传输文本数据时既能保持兼容性,又能有效地节省空间。

在编程中,我们使用Unicode字符集来表示字符,并使用UTF-8编码方案将字符转换为字节序列进行存储和传输。这两者在编程中是密切相关的,但它们是独立的概念,没有关闭的操作。

相关推荐
今夕资源网7 天前
powershell工具包 安装升级脚本并设置UTF-8 环境快捷方式创建 将powershell的编码默认改为UTF-8
开发语言·utf-8·powershell·utf-8编码·powershell7·powershell5·设置utf-8编码
wenha10 天前
踩坑记录:UTF-8、UTF-8-BOM 与 GB2312 读取的乱码真相
utf-8·.net·编码·utf-8-bom
Trouvaille ~20 天前
【MySQL篇】数据类型:存储数据的基础
android·数据库·mysql·adb·字符集·数据类型·基础入门
another heaven1 个月前
【计算机 字符编码类型及其应用场景详解】
数据结构·字符编码
Briue7Rua2 个月前
关于使用Visual Studio编译时产生的编码问题与解决方案
c语言·ide·utf-8·学习·visual studio·gbk
轩情吖2 个月前
MySQL库的操作
android·数据库·mysql·oracle·字符集·数据库操作·编码集
tctctttccc3 个月前
不属于c2c电子商务模式的网站是:成功案例与发展优势详解
utf-8·mybatis·ssm·配置·整合
tkevinjd4 个月前
IO流2(捕获异常、乱码与字符集)
java·字符集·io
lkbhua莱克瓦245 个月前
IO流——字符集
java·笔记·字符集·字符流
課代表5 个月前
PowerShell 字符转 UniCode 编码
字符编码·类型转换·unicode·powershell·批处理·转义·[char]