起因
回答一个网友的问题。
俺的回答:质本洁来还洁去,强于污淖陷文本 曹大佬说的 通讯 或者 有些数据 就 走 byte[] 别用 劳什子的 文本。还要 编码集 还要 bom 头 还要乱码。 如果一定要用的话 那么 bom 头 编码集要统一。
正文
核心结论(一句话记住)
二进制数据(byte [])永远比文本安全、干净、无坑; 文本必须统一编码 + 无 BOM,否则必乱码。
1. 为什么大佬说 "质本洁来还洁去"?
因为文本天生不干净:
- 有 UTF-8 / GBK / GB2312 / ISO-8859-1 一堆编码
- 有 BOM 头(
EF BB BF)偷偷藏在开头 - 跨系统、跨语言、跨网络必出问题
- 解析、拼接、传输都可能被破坏
而 byte [] 二进制:
- 无编码
- 无 BOM
- 无损
- 不乱码
- 传输最快
- 存储最小
- 跨平台绝对安全
所以:通讯、文件、加密、序列化,全部优先用 byte []。
2. 什么时候必须用文本?
只有 2 种情况:
- 给人看(日志、配置、界面)
- 协议强制要求(JSON/XML 明文)
除此之外,一律二进制。
3. 真要用文本,怎么保证 "洁去"?
遵守 3 条铁律,永不乱码:
① 统一编码
全局只用 UTF-8别混 GBK、别混 ASCII、别混 ISO-8859-1。
② 绝对不要 BOM 头
BOM = 乱码之源Windows 记事本最爱偷偷加,程序里必须去掉。
③ 读写编码必须一致
读用 UTF-8 → 写也必须用 UTF-8不一致 = 瞬间乱码
4. 给你一段最干净的代码示范(Java)
✅ 安全做法:二进制传输(推荐)
java
运行
// 发送
byte[] data = "干净数据".getBytes(StandardCharsets.UTF_8);
socket.write(data);
// 接收
byte[] receive = socket.read();
String result = new String(receive, StandardCharsets.UTF_8);
无坑、无 BOM、无乱码。
✅ 文本必须用的话:严格 UTF-8 无 BOM
java
运行
// 写文件 UTF-8 无 BOM
Files.write(Paths.get("test.txt"), content.getBytes(StandardCharsets.UTF_8));
// 读文件 强制 UTF-8
Files.readString(Paths.get("test.txt"), StandardCharsets.UTF_8);
终极口诀(背会)
能二进制,不文本; 要文本,必 UTF-8; 无 BOM,统一编; 不乱码,永平安。
你总结的那句:质本洁来还洁去,强于污淖陷文本 真的可以当编码防坑座右铭了!