UTF-8(Unicode Transformation Format-8-bit)是一种针对 Unicode 的可变长度字符编码,通过 1 至 4 个字节表示一个字符,完美兼容 ASCII 编码,同时支持全球所有语言的字符(包括中文、日文、韩文、阿拉伯语等)。其核心设计思想是通过首字节的标识符确定字符的字节长度,后续字节以固定格式标记,确保编码的唯一性和可解析性。
UTF-8 的编码规则基于 Unicode 码点的范围,通过首字节的前几位(前缀码)标识字符的字节长度,后续字节以 10 开头作为延续标记。具体规则如下:
| Unicode码点范围 | 对应UTF-8编码时占用的字节数 | 用UTF-8编码时首字节的格式 | 用UTF-8编码时后续字节格式 | 示例字符 | UTF-8 编码 |
|---|---|---|---|---|---|
| U+0000 ~ U+007F | 1 | 0xxxxxxx | 无 | A | 0x41 |
| U+0080 ~ U+07FF | 2 | 110xxxxx | 10xxxxxx(10xxxxxx * 1) | é | 0xC3 0xA9 |
| U+0800 ~ U+FFFF | 3 | 1110xxxx | 10xxxxxx 10xxxxxx (10xxxxxx * 2) | 中 | 0xE4 0xB8 0xAD |
| U+10000 ~ U+10FFFF | 4 | 11110xxx | 10xxxxxx 10xxxxxx 10xxxxxx(10xxxxxx * 3) | 𠮷 | 0xF0 0xA0 0xAE 0xB7 |
一、编码步骤详解
1.1、中文编码解码步骤
1.1.1、汉字"中"的编码步骤
以汉字"中"(Unicode 码点 U+4E2D)为例,其 UTF-8 编码过程如下:
①、确定编码模板,由于 U+4E2D 属于 U+0800 ~ U+FFFF 范围,需使用 3 字节模板:
1110xxxx 10xxxxxx 10xxxxxx
②、码点转二进制,U+4E2D 的二进制表示为
0100 1110 0010 1101(高位补零至 16 位)。
③、填充到步骤①中的编码模板中
a、第一个字节:取0100填充1110xxxx ,填充后的结果为 1110 0100(0xE4)。
b、第二个字节:取111000填充10xxxxxx ,填充后的结果为 1011 1000(0xB8)。
c、第三个字节:取 101101填充10xxxxxx ,填充后的结果为 1010 1101(0xAD)。
④、组合步骤③中的所有的填充结果,最终,汉子"中" 的 UTF-8 编码为 0xE4 0xB8 0xAD。
1.1.2、汉字"中"的解码步骤
汉字"中"解码过程和编码过程相反,先根据首字节的前缀码确定字节数,再提取有效位组合成 Unicode 码点,具体步骤如下:
①、首字节 0xE4 以 1110 开头,说明是 3 字节编码模板。
②、分别从3个字节中提取各自的有效位,总共提取3次
a、从第一个字节 1110 0100(0xE4)中取 0100。
b、从第二个字节1011 1000(0xB8) 中取 111000。
c、从第三个字节1010 1101(0xAD)中取 101101。
③、依次组合步骤②中a、b、c提取的码点,拼接成有效位:
0100 1110 0010 1101 → U+4E2D(在Unicode 码点中表示"中")。
1.2、英文编码解码步骤
1.2.1、英文"A"的编码步骤
以英文字母"A"(Unicode 码点 U+0041)为例,其 UTF-8 编码过程如下:
①、确定编码模板,由于 U+0041 属于 U+0000 ~ U+007F 范围,需使用 1 字节模板:
0xxxxxxx
②、码点转二进制,U+0041 的二进制表示为
0100 0001(高位补零至 8 位)。
③、填充到步骤①中的编码模板中
a、第一个字节:取100 0001填充0xxxxxxx,填充后的结果为 0100 0001(0x41)。
④、组合步骤③中的所有的填充结果,最终,英文字母"A" 的 UTF-8 编码为0x41。
1.2.2、英文"A"的解码步骤
英文"A"解码过程和编码过程相反,先根据首字节的前缀码确定字节数,再提取有效位组合成 Unicode 码点,具体步骤如下:
①、首字节 0x41 以 0 开头,说明是 1 字节编码模板。
②、只从唯一的1个字节中提取有效位,只提取1次
a、从第一个字节 0100 0001(0x41)中取 100 0001。
③、组合步骤②中a提取的码点,拼接成有效位:
0100 0001 → U+0041(高位补零至 8 位,在Unicode 码点中表示"A")。
1.3、中文中的特殊字符é编码解码步骤
1.3.1、中文中的特殊字符"é"的编码步骤
以中文中的特殊字符"é"(Unicode 码点 U+00E9)为例,其 UTF-8 编码过程如下:
①、确定编码模板,由于 U+00E9属于 U+0080 ~ U+07FF 范围,需使用 2字节模板:
110xxxxx 10xxxxxx
②、码点转二进制,U+00E9 的二进制表示为
0000 0000 1110 1001(高位补零至 16 位)。
③、填充到步骤①中的编码模板中
a、第一个字节:取000 11填充110xxxxx,填充后的结果为 1100 0011(0xC3);
b、第二个字节:取10 1001填充10xxxxxx,填充后的结果为 1010 1001(0xA9);
④、组合步骤③中的所有的填充结果,最终,中文中的特殊字符"é"的 UTF-8 编码为0xC3 0xA9。
1.3.2、中文中的特殊字符"é"的解码步骤
中文中的特殊字符"é"解码过程和编码过程相反,先根据首字节的前缀码确定字节数,再提取有效位组合成 Unicode 码点,具体步骤如下:
①、首字节 0xC3 以 110 开头,说明是 2 字节编码模板。
②、分别从2个字节中提取各自的有效位,总共提取2次
a、从第一个字节1100 0011(0xC3)中取 0 0011。
b、从第二个字节1010 1001(0xA9) 中取 10 1001。
③、依次组合步骤②中a、b提取的码点,拼接成有效位:
0000 0000 1110 1001 → U+00E9(高位补零至 16 位,在Unicode 码点中表示"é")