【Java】char字符类型的UTF-16编码解析

在 Java 中，char类型使用的是 UTF-16 编码。

1.基本事实

编码格式：UTF-16（16-bit Unicode Transformation Format）。
占用空间：固定占用 2 个字节（16位）。
取值范围：\u0000（即 0）到\uffff（即 65,535）。

2.为什么是 UTF-16？

在 Java 设计之初（1990年代），Unicode 标准中的字符数量还比较少，设计者认为 16 位（2 字节）足以容纳世界上所有的字符。因此，Java 将char定义为 2 字节，并直接对应 Unicode 代码点。

3.现在的问题：BMP 与代理对

随着 Unicode 的发展，字符集急剧扩大（现在的 Unicode 字符超过了 110 万个），2 字节（65535 个位置）已经不够用了。

基本多文种平面（BMP）：从0到65535的字符。这部分字符（包括大多数常用的中文、英文、符号）可以完全存放在一个char中。
增补平面：超过65535的字符（例如一些 Emoji 表情、生僻汉字）。这些字符无法放入一个char中。

Java 如何处理超出 65535 的字符？

Java 使用代理对机制 。这意味着一个这样的"字符"实际上需要两个char来表示（一个高代理项high surrogate和一个低代理项low surrogate）。

4.核心概念：码元 vs 码点

在 Java 中理解char时，必须区分这两个概念：

代码单元：char是一个 UTF-16 代码单元。它是 Java 字符串处理的最小单位。
码点：指字符在 Unicode 标准中的唯一编号（例如'A'的码点是 65，emoji'😂'的码点是 128514）。

结论：

一个char永远代表一个 16 位的 UTF-16 代码单元，但它不一定代表一个完整的逻辑字符（即一个码点）。

5.编程建议

由于char可能无法完整表示某些 Unicode 字符，现代 Java 开发中建议：

优先使用String而不是char数组来处理文本，因为String对象能够正确处理代理对。
遍历字符串时，如果需要处理所有可能的 Unicode 字符（包括 Emoji），不要使用toCharArray()，而应该使用codePoints()方法：

java 复制代码

String str = "A😂"; // 'A' 是 BMP，'😂' 是增补字符

// 错误做法：遍历 char (code units)
// 输出长度为 3，且会将 Emoji 拆成两个乱码字符
for (char c : str.toCharArray()) {
    System.out.println(c);
}

// 正确做法：遍历 code points
// 输出长度为 2，能正确识别 'A' 和 '😂'
str.codePoints().forEach(cp -> {
    System.out.println((char) cp); // 注意：如果转回 char 仍可能丢失信息，建议直接处理 int 类型的 cp
});

总结：Javachar是 UTF-16 编码的 16 位整数，它是 Unicode 码元，不总是等同于一个完整的字符。