Java 源码中的 Unicode 逃逸问题,别被注释给骗了

背景

看了一段项目源码,定义了一个 List 对象,但是往该列表对象 add 的代码前面有注释符号,但是程序运行时列表中却存在对象,为什么呢?仔细看了一下,注释符号和 add 代码之间有一个特殊符号 \u000d,这到底是什么东西呢?

奇怪的代码

bash 复制代码
public List<String> getData() {
	List<String> data = new ArrayList<>();
	
	for (int i = 0; i < 10; i++) {
		// 注意,这里有个障眼法是 unicode 的换行符
		// \u000d data.add(i);
	}

	logger.info("data count is {}", data.size());
	return data;
}

运行结果:

基本原理

众所周不知「恕我孤陋寡闻,我没看过这种用法」,Java 编译器编译代码时会解析 unicode 字符,而代码中存在特殊字符的 unicode 符号时,就会产生障眼。

几个主要特殊符号:

  1. \u000a 换行
  2. \u000d 回车
  3. \u007d 左花括号 {
  4. \u007b 右花括号 }

启示录

想起刚入行的时候,看过一本电子书《疯狂的 Java 讲义》,书中介绍了很多 Java 的奇怪玩法,现在大部分都忘记了。

但对单例代码的漏洞,一直记忆犹新。即通过反序列化后创建的类可以打破单例,解决办法是重新序列化方法的 writeObject 保证也是单例。具体细节已经遗忘了,回忆了一下《序列化对单例模式的破坏》

至于 Unicode 字符逃逸,项目中出现这类迷惑代码,普通开发怎么看得懂呢?尤其是我这种头脑比较简单的人,只会写简单代码,一见到复杂绕绕的代码就懵了哇!

话说回来,unicode 在某种场合还是有用的,比如绕过平台的敏感词检测,之前发布某篇文章通不过的时候,转换成 unicode 编码就过去了。作为程序员交流的暗语也是不错的!

bash 复制代码
\u8001\u733f\u4e0b\u73ed\u4e86
相关推荐
Coder_Boy_3 分钟前
基于SpringAI的在线考试系统-教学管理与用户管理模块联合回归测试文档
java·前端·数据库·人工智能·spring boot
Knight_AL3 分钟前
一文讲透 Java 中transient的用处(结合 Flink 理解)
java·python·flink
xqqxqxxq10 分钟前
《智能仿真无人机平台(多线程V1.0)技术笔记》(初识线程,带你理解程序运行的基本流程)
java·笔记
进阶小白猿12 分钟前
Java技术八股学习Day23
java·网络·学习
砚边数影15 分钟前
DL4J框架入门(三):基础配置,计算后端(CPU/GPU)选型与优化
java·数据库·人工智能·ai·金仓数据库
名字无法显示34118 分钟前
Arthas 实战指南:结合 IDEA 的 Java 线上排查完整流程
java·intellij-idea
qq_124987075319 分钟前
基于Spring Boot的桶装水配送管理系统的设计与实现(源码+论文+部署+安装)
java·前端·spring boot·后端·spring·毕业设计·计算机毕业设计
季明洵21 分钟前
二分搜索、移除元素、有序数组的平方、长度最小的子数组
java·数据结构·算法·leetcode
leiming624 分钟前
C语言联合体union的用法(非常详细,附带示例)
java·python·算法
a程序小傲26 分钟前
Maven 4 要来了:15 年后,Java 构建工具迎来“彻底重构”
java·开发语言·spring boot·后端·spring·重构·maven