核心问题: Claw-Code 究竟是真正的净室独立实现,还是披着合法外衣的代码抄袭?
一、核心结论
Claw-Code 大概率不是传统意义上的"净室重写",而是一种利用 AI 工具进行的快速功能复刻。 虽然它可能不构成严格法律意义上的"版权侵权"(因为语言从 TypeScript 切换为 Rust),但从软件工程和社区伦理角度,它更接近于"AI 加速的功能性复制"而非真正的独立设计。以下从五个维度详细论证。
二、五重验证维度
维度一:时间线悖论------"净室"的速度太可疑了
真正的净室逆向工程(Clean Room Reverse Engineering, CRRE)是一个严格的治理系统,要求两个完全隔离的团队、可追溯的证据链和审计流程 [1]。历史上经典的净室案例------Phoenix Technologies 重写 IBM PC BIOS------耗时数月,需要数十名工程师协作 [1]。
Claw-Code 的时间线是:
- 凌晨 4 点被消息吵醒
- 几小时内用 oh-my-codex + OpenAI Codex 完成 Python 重写
- 随后几小时内启动 Rust 重写
- 发布后 2 小时达到 5 万 Star
这个速度暗示了一种可能性:Sigrid Jin 或其 AI 工具实际上接触了泄露的源码,而非通过观察行为来推断规范。 正如 chardet 案例中原作者 Mark Pilgrim 所指出的:"他们声称这是'完全重写'是无关紧要的,因为他们有充分的机会接触到原始许可代码(即,这不是'净室'实现)" [3]。
维度二:oh-my-codex 的本质------它不是"净室"工具
oh-my-codex (OMX) 本质上是 OpenAI Codex CLI 的工作流增强层 ,提供角色路由( a r c h i t e c t 、 architect、 architect、executor、 r a l p h 、 ralph、 ralph、team)和工作流管理 [4]。它的定位是"保持 Codex 作为执行引擎"并在其上添加更好的工作层。
这里存在一个根本性的问题:净室重写的核心是"知识隔离"------实现团队绝不能接触原始源码。 但 oh-my-codex 的工作方式是让 OpenAI Codex 模型执行代码生成,而 OpenAI Codex 模型的训练数据极有可能包含了 Claude Code 的公开文档、社区讨论甚至早期的泄露内容。这意味着:
- "实现者"(Codex 模型)可能已经在训练阶段"看过"了与 Claude Code 相关的信息
- Sigrid Jin 自己明确接触过泄露的源码(他是最早公开泄露的人之一)
- 不存在一个"洁净团队"从零开始实现
正如 Plagiarism Today 的 Jonathan Bailey 所批评的:"在编程机器人没有在源代码材料上训练过这件事上,我不会认真对待那些(带有玩笑性质的)保证" [5]。
维度三:代码结构的高保真度------"功能复制"而非"独立设计"
如果 Claw-Code 是真正的独立设计,我们预期会看到:
- 不同的模块组织方式
- 不同的命名约定
- 不同的设计决策(如不同的权限模型、不同的记忆架构)
但实际上,Claw-Code 的 Rust 架构与原始 Claude Code 的 TypeScript 架构存在极高的结构对应关系:
| 原始 Claude Code (TypeScript) | Claw-Code (Rust) |
|---|---|
| src/QueryEngine.ts (~46,000行) | runtime crate (16 个模块) |
| src/Tool.ts (~29,000行,40个工具) | tools crate (19个工具) |
| src/commands.ts (~85个命令) | commands crate (15个命令) |
| bridge/ (IDE集成) | 未实现 |
| coordinator/ (多Agent编排) | agent-mcp crate |
| MCP 集成 | mcp + mcp_client 模块 |
| OAuth 认证 | oauth 模块 |
| 三层内存架构 | config 模块 (CLAUDE.md 发现) |
| 权限系统 (三道门) | permissions 模块 (Allow/Deny/Prompt) |
这种近乎一一对应的关系更像是一个翻译映射(TypeScript → Rust),而非独立的重新设计。真正的独立实现通常会产生不同的架构选择------例如,不一定会保持完全相同的"三层内存架构"或"16次工具调用迭代上限"。
维度四:LLM 训练数据污染问题
这是当前 AI 净室重写面临的最大法律盲区。正如 chardet 案例中自由软件基金会执行董事 Zoë Kooyman 所指出的:"一个已经吸收了它被要求重新实现的代码的大型语言模型,没有任何'干净'可言" [3]。
具体到 Claw-Code 的情况:
- Claude Code 在泄露前已有大量公开文档、博客文章、社区讨论
- OpenAI Codex 的训练数据几乎必然包含这些公开信息
- Claude Code 本身在 2025 年 2 月就有过一次泄露,相关讨论也存在于互联网上
- GPT 系列模型的训练数据包含 GitHub 公开仓库
n1n.ai 的分析文章指出:"如果要求智能体实现一个知名库,它可能会从其内部权重中提取信息,而非严格遵循你提供的规格说明书,这相当于绕过了'洁净'要求" [6]。
维度五:法律策略的矛盾
Claaw-Code 项目本身的行为模式存在自相矛盾:
- 最先公开泄露代码的人声称"净室重写":Sigrid Jin 是最先将泄露源码公开到 GitHub 的人,随后又声称自己进行了净室重写。这在逻辑上矛盾------如果一开始就打算净室重写,为何要先公开原始代码?
- 从 TypeScript 到 Rust 的语言切换:这确实是降低侵权风险的有效策略(语义隔离),但如果真的是纯粹的"功能观察后独立实现",为何第一步是 Python 重写(与原始 TypeScript 更接近)而非直接 Rust?
- Anthropic 的 DMCA 行动选择了特定目标:Anthropic 对直接托管原始 TypeScript 代码的仓库进行了 DMCA 清理(8,100+ 仓库),但 claw-code 目前仍然存在。这可能意味着 Anthropic 认识到对"净室重写"发起 DMCA 在法律上有风险,也可能是战术选择。
三、如何真正验证?
如果要对 Claw-Code 进行独立验证,以下是可行的方法:
1. 代码相似度检测
- 使用 JPlag 或 MOSS 等工具对 Claw-Code 的 Rust 代码与泄露的 TypeScript 代码进行跨语言相似度检测
- 由于语言不同,传统工具可能效果有限,但可以比较 AST(抽象语法树)的结构相似度
- 参考标准:chardet 7.0 的相似度检测显示最高仅 1.29% [3],而 Claw-Code 预期会更高(因为功能对应关系更紧密)
2. 设计决策审计
- 对比 Claw-Code 与 Claude Code 在以下方面的设计决策是否一致:
- 权限模型的三级策略(Allow/Deny/Prompt)
- 16 次工具调用迭代上限
- 三层内存架构(轻量索引/主题文件/会话历史)
- 12 阶段启动管道
- 对话压缩策略(保留最近 4 条消息,最大 10,000 token)
- 如果这些非显而易见的设计选择完全一致,则强烈暗示存在直接参照
3. 规范文档审查
- 检查 Claw-Code 仓库中是否存在独立的功能规范文档(净室重写的必要产物)
- 审查 Git 提交历史,看是否存在"先写规范后写代码"的证据链
- 检查是否有"污染团队"和"洁净团队"的角色分离记录
4. 变量名和注释分析
- 即使语言不同,如果变量命名习惯、注释风格、错误消息措辞过于相似,也能说明问题
- 特别关注内部术语(如 "KAIROS"、"autoDream"、"ULTRAPLAN")的使用------这些是泄露后才公开的内部代号
5. Git 历史取证
- 分析 Claw-Code 的提交历史,看是否有可以追溯到泄露时间点之前的"独立开发"证据
- 检查是否有从泄露源码仓库 clone/pull 的记录
- 检查 oh-my-codex 的会话日志是否保存了与原始代码交互的证据
四、法律定性分析
可能不构成版权侵权的理由
- 语言从 TypeScript 切换为 Rust,属于不同的"表达"
- 软件的思想/架构/功能不受版权保护(思想-表达二分法)
- Anthropic 目前未对 claw-code 发起 DMCA(可能意味着法律团队认为胜算不大)
可能构成侵权的理由
- 结构、顺序和组织(SSO)的过度相似
- 非显而易见的设计选择的复制(如 12 阶段启动管道、FNV-1a 哈希配置检测)
- 如果能证明 Codex 模型从训练数据中"回忆"了 Claude Code 的代码
AI 时代的法律空白
正如 Ars Technica 所指出的,这引出了一个更深层的问题:"Claude 的模型是基于从公共互联网抓取的大量数据进行训练的,这意味着 Claude 极有可能在其训练过程中吸收了先前 chardet 版本的开源代码。这种先前的'知识'是否意味着 Claude 的创作是原作品的'衍生品',即使新代码在结构上与旧代码不同,这也是一个悬而未决的问题" [3]。这个问题同样适用于 Claw-Code。
五、结论与判断
Claw-Code 最可能的真实情况是:
- 它不是一个法律意义上的净室重写(缺乏知识隔离、证据链和审计流程)
- 它可能不构成严格法律意义上的版权侵权(因为语言切换提供了足够的"表达差异")
- 它是一个利用 AI 工具快速功能复刻的产物,介于"独立实现"和"翻译复制"之间
- 它的存在暴露了 AI 时代版权法的严重滞后------当 LLM 可以在几小时内"重写"任何代码时,传统的"净室"概念和法律框架都面临根本性挑战
最关键的一点:Claude Code 的泄露是 Anthropic 自身的错误所致,而 Claw-Code 的出现加速了 AI Agent 技术的民主化。无论其法律定性如何,这个事件已经不可逆转地改变了行业格局。
参考文献
- Clean Room Reverse Engineering Complete Writeup v1 (2026-03-21)
- Legality of Reverse Engineering & Clean Room Reversing
- Ars Technica - AI can rewrite open source code---but can it rewrite the license, too?
- GitHub - Yeachan-Heo/oh-my-codex
- Plagiarism Today - Cleanroom as a Service: AI-Washing Copyright
- n1n.ai - Can AI Coding Agents Enable Open Source Relicensing via Clean Room Implementation?
- Hong Minhee - Is legal the same as legitimate: AI reimplementation and the erosion of copyleft
- 品玩 - Anthropic 启动法律反击 大规模下架泄露代码
- Decrypt - Anthropic Accidentally Leaked Claude Code's Source
- JPlag - Source Code Plagiarism Detection Tool