讲清楚Go字符串和utf8编码

unicode 字符集

unicode 字符集给世界上每个字符做了编码,每个字符对应一个码点(code pooint)。unicode字符集将所有的字符按平面划分,分为1个基础平面+16个补充平面,参考:unicode字符集

码点范围:

  • 基础平面:U+0000 - U+FFFF
  • 补充平面:U+10000 - U+10FFFF

注意:这里码点用16进制写法,每个16进制位等于4个二进制位,2个16进制位就等于1字节。

utf8

unicode码点不好被计算机直接存储,假如每个字符都按最长码点(U+10FFFF),用3字节存储,对基础平面的字符是极大的浪费,而我们日常用的最多的就是基础平面的字符。

出于这个原因,utf8被发明出来。utf8是一种编码方式,它规定每个unicode码点如何被编码。简单来说,它的规则很简单:

  1. 根据码点范围,决定需要的字节数
  2. 前缀+码点二进制

下面的表格具体展示了码点范围和对应的编码规则

分类 范围 Byte1 Byte2 Byte3 Byte4
基本平面 U+0000, U+007F 0xxxxxxx
U+0080, U+07FF 110xxxxx 10xxxxxx
U+0800, U+FFFF 1110xxxx 10xxxxxx 10xxxxxx
补充平面 U+10000, U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

1个基本平面的字符被细分成了三个范围,16个补充片面算一个范围,具体来说:

  • U+0000,U+007F\]: 这之间的码点,用1个字节编码,前缀是0,剩下的7位就是码点的二进制位

  • U+0800, U+FFFF\],\[U+10000,U+10FFFF\]: 以此类推

中文"世"的码点是:4E16

码点写成二进制:0100,1110,0001,0110

码点落在第3区间,utf8编码为:11100100 ,10111000 ,10010110

utf8编码用16进制表示:E4B896


中文"界"的码点是:754C

码点写成二进制:0111,0101,0100,1100

码点落在第3区间,utf8编码为:11100111 ,10010101 ,10001100

utf8编码用16进制表示:E7958C

Go 字符串

Go 中的字符串就是byte slice,Go 对于string literal采用utf8编码,每个byte存的就是utf8编码的结果。

go 复制代码
word := "世界"
fmt.Printf("% x\n", word)  // output: e4 b8 96 e7 95 8c
fmt.Printf("% x\n", []byte(word)) // same output: e4 b8 96 e7 95 8c

要强调的是,string本身就是一个byte slice,没有任何特殊。只是 Go 在处理 string literal 时,默认将 utf8 编码存到这个byte slice中。除此以外,我们可以随意往里面插入字节,甚至是无法用utf8解析的字节。

go 复制代码
utf8Bytes := []byte{0xe4, 0xb8, 0x96, 0xe7, 0x95, 0x8c}
fmt.Printf("%s\n", string(utf8Bytes)) // output: 世界

utf8Bytes = append(utf8Bytes, 0xff) // 插入一个不合法的utf8字节
fmt.Printf("%s\n", string(utf8Bytes)) // output: 世界�

在打印时,对于无法用 utf8 解析的字符,默认输出�,这叫replacement character。当渲染失败时,默认展示这个字符,它的码点是U+FFFD。

Go 字符

Go 中单个字符直接存储unicode码点,不经过utf8编码。一个很直观的例子

go 复制代码
s := "世"
c := '世'
fmt.Printf("%x\n", s) // output: E4B896
fmt.Printf("%x\n", c) // output: 4E16

双引号"世"被当做字符串,存储 utf8 编码,单引号'世'被当做单个字符,直接存储 unicode 码点。

Go 给 unicode 码点取了新名字: rune。从定义来看:type rune = int32runeint32完全等价。这也说明码点在Go中永远都是用4字节存储。

我们可以把 string 的每个utf8字符解码成码点(rune)输出。

go 复制代码
world := "世界"
fmt.Printf("%x\n", []rune(world)) // output: [4e16 754c]
相关推荐
AntBlack14 分钟前
Python : AI 太牛了 ,撸了两个 Markdown 阅读器 ,谈谈使用感受
前端·人工智能·后端
mikes zhang1 小时前
Flask文件上传与异常处理完全指南
后端·python·flask
Pitayafruit1 小时前
跟着大厂学架构01:如何利用开源方案,复刻B站那套“永不崩溃”的评论系统?
spring boot·分布式·后端
方圆想当图灵1 小时前
深入理解软件设计:领域驱动设计 DDD
后端·架构
excel2 小时前
MySQL 9 在 Windows 上使用 mysqld --initialize-insecure 无响应的排查与解决方案
后端
你怎么知道我是队长2 小时前
GO语言---defer关键字
开发语言·后端·golang
方圆想当图灵2 小时前
深入理解软件设计:什么是好的架构?
后端·架构·代码规范
love530love3 小时前
是否需要预先安装 CUDA Toolkit?——按使用场景分级推荐及进阶说明
linux·运维·前端·人工智能·windows·后端·nlp
泯泷4 小时前
「译」为 Rust 及所有语言优化 WebAssembly
前端·后端·rust
梦想很大很大4 小时前
把业务逻辑写进数据库中:老办法的新思路(以 PostgreSQL 为例)
前端·后端·架构