Claw-Code 净室重写真实性验证分析

核心问题: Claw-Code 究竟是真正的净室独立实现，还是披着合法外衣的代码抄袭？

一、核心结论

Claw-Code 大概率不是传统意义上的"净室重写"，而是一种利用 AI 工具进行的快速功能复刻。 虽然它可能不构成严格法律意义上的"版权侵权"（因为语言从 TypeScript 切换为 Rust），但从软件工程和社区伦理角度，它更接近于"AI 加速的功能性复制"而非真正的独立设计。以下从五个维度详细论证。

二、五重验证维度

维度一：时间线悖论------"净室"的速度太可疑了

真正的净室逆向工程（Clean Room Reverse Engineering, CRRE）是一个严格的治理系统，要求两个完全隔离的团队、可追溯的证据链和审计流程 $1$ 。历史上经典的净室案例------Phoenix Technologies 重写 IBM PC BIOS------耗时数月，需要数十名工程师协作 $1$ 。

Claw-Code 的时间线是：

凌晨 4 点被消息吵醒
几小时内用 oh-my-codex + OpenAI Codex 完成 Python 重写
随后几小时内启动 Rust 重写
发布后 2 小时达到 5 万 Star

这个速度暗示了一种可能性：Sigrid Jin 或其 AI 工具实际上接触了泄露的源码，而非通过观察行为来推断规范。 正如 chardet 案例中原作者 Mark Pilgrim 所指出的："他们声称这是'完全重写'是无关紧要的，因为他们有充分的机会接触到原始许可代码（即，这不是'净室'实现）" $3$ 。

维度二：oh-my-codex 的本质------它不是"净室"工具

oh-my-codex (OMX) 本质上是 OpenAI Codex CLI 的工作流增强层 ，提供角色路由（ a r c h i t e c t 、 architect、 architect、executor、 r a l p h 、 ralph、 ralph、team）和工作流管理 $4$ 。它的定位是"保持 Codex 作为执行引擎"并在其上添加更好的工作层。

这里存在一个根本性的问题：净室重写的核心是"知识隔离"------实现团队绝不能接触原始源码。 但 oh-my-codex 的工作方式是让 OpenAI Codex 模型执行代码生成，而 OpenAI Codex 模型的训练数据极有可能包含了 Claude Code 的公开文档、社区讨论甚至早期的泄露内容。这意味着：

"实现者"（Codex 模型）可能已经在训练阶段"看过"了与 Claude Code 相关的信息
Sigrid Jin 自己明确接触过泄露的源码（他是最早公开泄露的人之一）
不存在一个"洁净团队"从零开始实现

正如 Plagiarism Today 的 Jonathan Bailey 所批评的："在编程机器人没有在源代码材料上训练过这件事上，我不会认真对待那些（带有玩笑性质的）保证" $5$ 。

维度三：代码结构的高保真度------"功能复制"而非"独立设计"

如果 Claw-Code 是真正的独立设计，我们预期会看到：

不同的模块组织方式
不同的命名约定
不同的设计决策（如不同的权限模型、不同的记忆架构）

但实际上，Claw-Code 的 Rust 架构与原始 Claude Code 的 TypeScript 架构存在极高的结构对应关系：

原始 Claude Code (TypeScript)	Claw-Code (Rust)
src/QueryEngine.ts (~46,000行)	runtime crate (16 个模块)
src/Tool.ts (~29,000行，40个工具)	tools crate (19个工具)
src/commands.ts (~85个命令)	commands crate (15个命令)
bridge/ (IDE集成)	未实现
coordinator/ (多Agent编排)	agent-mcp crate
MCP 集成	mcp + mcp_client 模块
OAuth 认证	oauth 模块
三层内存架构	config 模块 (CLAUDE.md 发现)
权限系统 (三道门)	permissions 模块 (Allow/Deny/Prompt)

这种近乎一一对应的关系更像是一个翻译映射（TypeScript → Rust），而非独立的重新设计。真正的独立实现通常会产生不同的架构选择------例如，不一定会保持完全相同的"三层内存架构"或"16次工具调用迭代上限"。

维度四：LLM 训练数据污染问题

这是当前 AI 净室重写面临的最大法律盲区。正如 chardet 案例中自由软件基金会执行董事 Zoë Kooyman 所指出的："一个已经吸收了它被要求重新实现的代码的大型语言模型，没有任何'干净'可言" $3$ 。

具体到 Claw-Code 的情况：

Claude Code 在泄露前已有大量公开文档、博客文章、社区讨论
OpenAI Codex 的训练数据几乎必然包含这些公开信息
Claude Code 本身在 2025 年 2 月就有过一次泄露，相关讨论也存在于互联网上
GPT 系列模型的训练数据包含 GitHub 公开仓库

n1n.ai 的分析文章指出："如果要求智能体实现一个知名库，它可能会从其内部权重中提取信息，而非严格遵循你提供的规格说明书，这相当于绕过了'洁净'要求" $6$ 。

维度五：法律策略的矛盾

Claaw-Code 项目本身的行为模式存在自相矛盾：

最先公开泄露代码的人声称"净室重写"：Sigrid Jin 是最先将泄露源码公开到 GitHub 的人，随后又声称自己进行了净室重写。这在逻辑上矛盾------如果一开始就打算净室重写，为何要先公开原始代码？
从 TypeScript 到 Rust 的语言切换：这确实是降低侵权风险的有效策略（语义隔离），但如果真的是纯粹的"功能观察后独立实现"，为何第一步是 Python 重写（与原始 TypeScript 更接近）而非直接 Rust？
Anthropic 的 DMCA 行动选择了特定目标：Anthropic 对直接托管原始 TypeScript 代码的仓库进行了 DMCA 清理（8,100+ 仓库），但 claw-code 目前仍然存在。这可能意味着 Anthropic 认识到对"净室重写"发起 DMCA 在法律上有风险，也可能是战术选择。

三、如何真正验证？

如果要对 Claw-Code 进行独立验证，以下是可行的方法：

1. 代码相似度检测

使用 JPlag 或 MOSS 等工具对 Claw-Code 的 Rust 代码与泄露的 TypeScript 代码进行跨语言相似度检测
由于语言不同，传统工具可能效果有限，但可以比较 AST（抽象语法树）的结构相似度
参考标准：chardet 7.0 的相似度检测显示最高仅 1.29% $3$ ，而 Claw-Code 预期会更高（因为功能对应关系更紧密）

2. 设计决策审计

对比 Claw-Code 与 Claude Code 在以下方面的设计决策是否一致：
- 权限模型的三级策略（Allow/Deny/Prompt）
- 16 次工具调用迭代上限
- 三层内存架构（轻量索引/主题文件/会话历史）
- 12 阶段启动管道
- 对话压缩策略（保留最近 4 条消息，最大 10,000 token）
如果这些非显而易见的设计选择完全一致，则强烈暗示存在直接参照

3. 规范文档审查

检查 Claw-Code 仓库中是否存在独立的功能规范文档（净室重写的必要产物）
审查 Git 提交历史，看是否存在"先写规范后写代码"的证据链
检查是否有"污染团队"和"洁净团队"的角色分离记录

4. 变量名和注释分析

即使语言不同，如果变量命名习惯、注释风格、错误消息措辞过于相似，也能说明问题
特别关注内部术语（如 "KAIROS"、"autoDream"、"ULTRAPLAN"）的使用------这些是泄露后才公开的内部代号

5. Git 历史取证

分析 Claw-Code 的提交历史，看是否有可以追溯到泄露时间点之前的"独立开发"证据
检查是否有从泄露源码仓库 clone/pull 的记录
检查 oh-my-codex 的会话日志是否保存了与原始代码交互的证据

四、法律定性分析

可能不构成版权侵权的理由

语言从 TypeScript 切换为 Rust，属于不同的"表达"
软件的思想/架构/功能不受版权保护（思想-表达二分法）
Anthropic 目前未对 claw-code 发起 DMCA（可能意味着法律团队认为胜算不大）

可能构成侵权的理由

结构、顺序和组织（SSO）的过度相似
非显而易见的设计选择的复制（如 12 阶段启动管道、FNV-1a 哈希配置检测）
如果能证明 Codex 模型从训练数据中"回忆"了 Claude Code 的代码

AI 时代的法律空白

正如 Ars Technica 所指出的，这引出了一个更深层的问题："Claude 的模型是基于从公共互联网抓取的大量数据进行训练的，这意味着 Claude 极有可能在其训练过程中吸收了先前 chardet 版本的开源代码。这种先前的'知识'是否意味着 Claude 的创作是原作品的'衍生品'，即使新代码在结构上与旧代码不同，这也是一个悬而未决的问题" $3$ 。这个问题同样适用于 Claw-Code。

五、结论与判断

Claw-Code 最可能的真实情况是：

它不是一个法律意义上的净室重写（缺乏知识隔离、证据链和审计流程）
它可能不构成严格法律意义上的版权侵权（因为语言切换提供了足够的"表达差异"）
它是一个利用 AI 工具快速功能复刻的产物，介于"独立实现"和"翻译复制"之间
它的存在暴露了 AI 时代版权法的严重滞后------当 LLM 可以在几小时内"重写"任何代码时，传统的"净室"概念和法律框架都面临根本性挑战

最关键的一点：Claude Code 的泄露是 Anthropic 自身的错误所致，而 Claw-Code 的出现加速了 AI Agent 技术的民主化。无论其法律定性如何，这个事件已经不可逆转地改变了行业格局。