在 Java 中,char类型使用的是 UTF-16 编码。
1.基本事实
- 编码格式:UTF-16(16-bit Unicode Transformation Format)。
- 占用空间:固定占用 2 个字节(16位)。
- 取值范围:
\u0000(即 0)到\uffff(即 65,535)。
2.为什么是 UTF-16?
在 Java 设计之初(1990年代),Unicode 标准中的字符数量还比较少,设计者认为 16 位(2 字节)足以容纳世界上所有的字符。因此,Java 将char定义为 2 字节,并直接对应 Unicode 代码点。
3.现在的问题:BMP 与 代理对
随着 Unicode 的发展,字符集急剧扩大(现在的 Unicode 字符超过了 110 万个),2 字节(65535 个位置)已经不够用了。
- 基本多文种平面(BMP):从
0到65535的字符。这部分字符(包括大多数常用的中文、英文、符号)可以完全存放在一个char中。 - 增补平面:超过
65535的字符(例如一些 Emoji 表情、生僻汉字)。这些字符无法放入一个char中。
Java 如何处理超出 65535 的字符?
Java 使用代理对机制 。这意味着一个这样的"字符"实际上需要两个char来表示(一个高代理项high surrogate和一个低代理项low surrogate)。
4.核心概念:码元 vs 码点
在 Java 中理解char时,必须区分这两个概念:
- 代码单元:
char是一个 UTF-16 代码单元。它是 Java 字符串处理的最小单位。 - 码点:指字符在 Unicode 标准中的唯一编号(例如
'A'的码点是 65,emoji'😂'的码点是 128514)。
结论:
一个char永远代表一个 16 位的 UTF-16 代码单元,但它不一定代表一个完整的逻辑字符(即一个码点)。
5.编程建议
由于char可能无法完整表示某些 Unicode 字符,现代 Java 开发中建议:
- 优先使用
String而不是char数组来处理文本,因为String对象能够正确处理代理对。 - 遍历字符串时,如果需要处理所有可能的 Unicode 字符(包括 Emoji),不要使用
toCharArray(),而应该使用codePoints()方法:
java
String str = "A😂"; // 'A' 是 BMP,'😂' 是增补字符
// 错误做法:遍历 char (code units)
// 输出长度为 3,且会将 Emoji 拆成两个乱码字符
for (char c : str.toCharArray()) {
System.out.println(c);
}
// 正确做法:遍历 code points
// 输出长度为 2,能正确识别 'A' 和 '😂'
str.codePoints().forEach(cp -> {
System.out.println((char) cp); // 注意:如果转回 char 仍可能丢失信息,建议直接处理 int 类型的 cp
});
总结:Javachar是 UTF-16 编码的 16 位整数,它是 Unicode 码元,不总是等同于一个完整的字符。