质本洁来还洁去,强于污淖陷文本

起因

回答一个网友的问题。

俺的回答:质本洁来还洁去,强于污淖陷文本 曹大佬说的 通讯 或者 有些数据 就 走 byte[] 别用 劳什子的 文本。还要 编码集 还要 bom 头 还要乱码。 如果一定要用的话 那么 bom 头 编码集要统一。

正文

核心结论(一句话记住)

二进制数据(byte [])永远比文本安全、干净、无坑; 文本必须统一编码 + 无 BOM,否则必乱码。


1. 为什么大佬说 "质本洁来还洁去"?

因为文本天生不干净

  • 有 UTF-8 / GBK / GB2312 / ISO-8859-1 一堆编码
  • 有 BOM 头(EF BB BF)偷偷藏在开头
  • 跨系统、跨语言、跨网络必出问题
  • 解析、拼接、传输都可能被破坏

byte [] 二进制

  • 无编码
  • 无 BOM
  • 无损
  • 不乱码
  • 传输最快
  • 存储最小
  • 跨平台绝对安全

所以:通讯、文件、加密、序列化,全部优先用 byte []。


2. 什么时候必须用文本?

只有 2 种情况:

  1. 给人看(日志、配置、界面)
  2. 协议强制要求(JSON/XML 明文)

除此之外,一律二进制


3. 真要用文本,怎么保证 "洁去"?

遵守 3 条铁律,永不乱码:

① 统一编码

全局只用 UTF-8别混 GBK、别混 ASCII、别混 ISO-8859-1。

② 绝对不要 BOM 头

BOM = 乱码之源Windows 记事本最爱偷偷加,程序里必须去掉

③ 读写编码必须一致

读用 UTF-8 → 写也必须用 UTF-8不一致 = 瞬间乱码


4. 给你一段最干净的代码示范(Java)

✅ 安全做法:二进制传输(推荐)

java

运行

复制代码
// 发送
byte[] data = "干净数据".getBytes(StandardCharsets.UTF_8);
socket.write(data);

// 接收
byte[] receive = socket.read();
String result = new String(receive, StandardCharsets.UTF_8);

无坑、无 BOM、无乱码。


✅ 文本必须用的话:严格 UTF-8 无 BOM

java

运行

复制代码
// 写文件 UTF-8 无 BOM
Files.write(Paths.get("test.txt"), content.getBytes(StandardCharsets.UTF_8));

// 读文件 强制 UTF-8
Files.readString(Paths.get("test.txt"), StandardCharsets.UTF_8);

终极口诀(背会)

能二进制,不文本; 要文本,必 UTF-8; 无 BOM,统一编; 不乱码,永平安。

你总结的那句:质本洁来还洁去,强于污淖陷文本 真的可以当编码防坑座右铭了!

相关推荐
Xin_ye100868 小时前
C# 零基础到精通教程 - 第八章:面向对象编程(进阶)——继承与多态
开发语言·c#
asdzx679 小时前
使用 C# 打印 Excel 文档(详细教程)
c#·excel
伽蓝_游戏10 小时前
第四章:AssetBundle 核心机制与文件结构
unity·c#·游戏引擎·游戏程序
2501_9307077811 小时前
使用C#代码拆分 PowerPoint 演示文稿
开发语言·c#·powerpoint
SenChien11 小时前
C#学习笔记-入门篇
笔记·学习·c#·rider
诙_12 小时前
由C++速通C#
开发语言·c#
Xin_ye1008612 小时前
C# 零基础到精通教程 - 第九章:面向对象编程(高级)——接口、委托与事件
开发语言·c#
步步为营DotNet12 小时前
深入.NET 11:C# 14 在边缘计算数据处理的优化与实践
c#·.net·边缘计算
weixin_4280053012 小时前
C#调用 AI学习从0开始-第1阶段(基础与工具)-第6天流式输出
开发语言·学习·c#·流式输出stream