一个撇号，8 种身份：Claude Code 是怎么悄悄认出中国用户的

这两天，技术圈被一条消息刷屏了。

有人逆向了 Claude Code 的打包文件，发现 Anthropic 在里头藏了一段专门针对中国用户的代码，会偷偷给你打标记。

骂的人特别多。

说实话，我看到这条新闻的第一反应，不是跟着一起骂。

而是想搞清楚一件事：它到底是怎么做到「标记你」，还能让你完全看不见的？

Claude Code 国内用的人不少，这事跟每个用它的人都有关。

我把能找到的逆向分析都翻了一遍------英文的 dev.to、中文社区的拆解、X 上宝玉的帖子。

翻完，先给你两个结论，剩下的咱们慢慢拆。

第一，那段专门针对中国用户的代码，是真的。

第二，真正值得说道的，是它干这件事的手法------用一个你看不见的撇号，做成了一件特别精巧的事。

它把标记藏在了哪

先说它把「标记」藏在了哪。

你每次用 Claude Code 跟模型对话，它都会在请求的最前面，自动拼一段系统提示词。

其中有一行，普通得不能再普通：

Today's date is 2026-06-30.

就是告诉模型今天几号。

人畜无害，对吧？

问题就出在这行字里。

Anthropic 没有单独发一条请求来「举报」你，也没有在你的数据里附加什么奇怪字段。

它选了一个最隐蔽的办法：直接改这行字本身。

把「你是谁」的信息，藏进这行每天都要发的、看起来毫无意义的日期里。

用专业点的说法，这叫水印。更准确点，叫隐写（steganography）。

翻译成人话：它没给你贴一张写着「中国用户」的大字报，而是在你每句话的句号里，偷偷换了一个你看不见的笔划。

一个撇号，能藏两个比特

那它具体改了哪？

第一个位置，是 Today's 里的那个撇号。

就是那个 '。

你别小看这个符号。在计算机里，长得像撇号的东西，远不止一种。

正常的撇号，是键盘上直上直下的 '，Unicode 编码叫 U+0027。

但在字符表里，至少还有三个，跟它长得几乎一模一样：

字符	编码	长相
`'`	U+0027	键盘上直上直下的一竖
`'`	U+2019	向右弯的花引号
`ʼ`	U+02BC	悬在右上角的小逗号
`ʹ`	U+02B9	一根短短的竖撇

我把它们并排放一起，盯着看了半天，愣是没分出来。

复制粘贴带不走，普通的文本处理也不会清洗，它就那么静静躺在你发出去的请求里。

Anthropic 干的事，就是根据「你是什么身份」，从这四个里挑一个，替换进去。

四个撇号，正好能编码两个比特的信息：

命中域名黑名单	命中 AI 关键词	用哪个撇号
否	否	`'` U+0027
是	否	`'` U+2019
否	是	`ʼ` U+02BC
是	是	`ʹ` U+02B9

也就是说，光这一个肉眼不可见的字符，就同时表达了「你有没有命中域名黑名单」「你有没有命中 AI 实验室关键词」两层判断。

两个判断，压进了一个标点符号里。

第二个暗门：日期的分隔符

光两个比特还不够。

它还留了第二个暗门：日期中间的分隔符。

正常日期是 2026-06-30，用连字符 -。

但如果判定你在「中国时区」，它会把这三个连字符，悄悄换成斜杠：

2026/06/30

这又是一个比特。

你以为是工程师随手写的日期格式差异？

其实是刻意的第三层标记。

三个比特，八种身份

把这两个暗门拼起来，一共三个比特。

三个比特，能表达 2 的 3 次方------八种不同的身份。

时区	域名	关键词	身份编码
普通	否	否	普通用户
中国	否	否	中国时区用户
中国	是	否	命中黑名单的中国用户
中国	是	是	双重命中的中国用户
......	......	......	共 8 种组合

每一种组合，都精确对应一种「你是谁」。

举个具体的例子。

同样是发一句话给 Claude，一个走百度内网代理的员工，和一个用 DeepSeek 中转站的独立开发者，发出去的那行日期，人眼看起来一模一样。

但在 Anthropic 后台眼里，是两串完全不同的身份编码。

它能精确到这个程度。

这事最让人不舒服的地方在哪？

不是它标记了你，而是它标记得这么优雅，你居然一点都没察觉。

谁会被标记？四层关卡

那你可能会问：是不是所有中国用户都被标记了？

没有。

这套机制有触发条件，而且层层把关，一共四层。

第一层，看你是不是走官方直连。

如果你没动过 ANTHROPIC_BASE_URL 这个环境变量，老老实实连的官方 api.anthropic.com，整套水印直接跳过，什么都不干。

第二层，看你的系统时区。

它不看你 IP，而是直接读你电脑的时区设置。而且认得很死------只认 Asia/Shanghai 和 Asia/Urumqi 两个。

为什么是这俩？因为全球通用的时区数据库里，这俩正好、且仅代表「中国大陆」。

它故意没用「+8」这种省事写法。因为香港、台湾、新加坡都是 +8，一判就误伤。

它精确匹配这两个名字，等于把你死死钉在大陆本土。

第三层，一张 147 项的域名黑名单。

你填的中转站域名，拿来跟这张表比。这张表还做了加密------Base64 加上 XOR 异或，密钥就是整数 91。

对，就 91，比你家 WiFi 密码还简单。谈不上多难破解，安全研究者几分钟就能解开，但足够挡住普通用户。

第四层，11 个 AI 实验室关键词。

只要你的域名里含 deepseek、moonshot、zhipu 这些词，命中。去重之后，正好是 9 家中国头部大模型公司------DeepSeek、月之暗面、MiniMax、智谱、百川、阶跃星辰、零一万物、阿里通义、字节豆包。

有意思的是，国外竞品，Google、OpenAI，一个都没在表里。

所以可以确认：这套东西，就是冲着中国来的，一点含糊都没有。

为什么它不查 IP，反而更难躲

聊到这，你可能会想：Anthropic 直接查 IP 不就行了，干嘛费这么大劲，去改一个撇号？

这正是这套机制最「鸡贼」的地方。

查 IP，是网络层的事。你走中转站、走代理，IP 就变了，Anthropic 看到的只是中转站的 IP，根本认不出你是谁。

但时区、环境变量，是应用层的事，藏在你自己电脑里。

中转站改得了数据包的出口，改不了你系统的时区，也改不了你填进去的那个 ANTHROPIC_BASE_URL。

更关键的是：这个标记，是搭在你本来就要发的那条请求里走的。

它不需要单独发一条「举报」请求，不需要额外的接口，没有任何能被防火墙拦掉的东西。

你要拦它，就等于拦掉你自己跟 Claude 的对话。

这就是隐写和普通检测的根本区别。

普通检测是「我知道你在查我，我能躲」。

隐写是「你根本不知道自己被标记了，躲都没处躲」。

这套机制，到底图什么

说了这么多机制，回到一个最根本的问题：Anthropic 费这么大劲，到底图什么？

答案不复杂------防蒸馏。

什么是蒸馏？简单说，就是竞争对手拿 Claude 当老师，海量提问、收集回答，再拿这些数据训练自己的模型，低成本「抄」出近似的能力。

Claude 这种前沿模型，训练成本动辄上亿美金，谁都不想被白嫖。而国内一批 AI 公司，恰恰是最有动机、也有能力这么干的人。

所以那张 147 项的黑名单，第一项就是 .cn 域名------宁可错杀，不肯漏过。

这套水印，本质上就是一枚「取证印章」：一旦发现谁在批量蒸馏，能顺着标记，一路追到源头。

还有个进展：据 Tech Times 7 月 1 日报道，Anthropic 已经承诺会修复这个机制。

从被曝光，到表态整改，反应不算慢。

写在最后

它针对中国用户做水印，这事是真的，没什么可洗的。

但比起这件事本身，我更担心的是另一个趋势：

这种「看不见的标记」，会不会成为以后所有 AI 工具的标配？

你想想，这套手法几乎零成本。

不增加请求，不增加流量，也不留下任何能被察觉的痕迹。

一个字符的差别，就把八种身份分得清清楚楚。

这么高性价比的标记手段，没有理由不会被别的厂商学去。

今天它能在一个撇号里藏三个比特，明天它就能在别的字符里，藏下更多。

这才是真正值得警惕的方向。

徐公，持续分享 AI Engineering 实战。更多学习笔记和可复用代码，开源在 GitHub： https://github.com/gdutxiaoxu/ai-engineering-learning ，欢迎 Star。