Claw-Code 净室重写真实性验证分析

核心问题: Claw-Code 究竟是真正的净室独立实现,还是披着合法外衣的代码抄袭?

一、核心结论

Claw-Code 大概率不是传统意义上的"净室重写",而是一种利用 AI 工具进行的快速功能复刻。 虽然它可能不构成严格法律意义上的"版权侵权"(因为语言从 TypeScript 切换为 Rust),但从软件工程和社区伦理角度,它更接近于"AI 加速的功能性复制"而非真正的独立设计。以下从五个维度详细论证。

二、五重验证维度

维度一:时间线悖论------"净室"的速度太可疑了

真正的净室逆向工程(Clean Room Reverse Engineering, CRRE)是一个严格的治理系统,要求两个完全隔离的团队、可追溯的证据链和审计流程 [1]。历史上经典的净室案例------Phoenix Technologies 重写 IBM PC BIOS------耗时数月,需要数十名工程师协作 [1]。

Claw-Code 的时间线是:

  • 凌晨 4 点被消息吵醒
  • 几小时内用 oh-my-codex + OpenAI Codex 完成 Python 重写
  • 随后几小时内启动 Rust 重写
  • 发布后 2 小时达到 5 万 Star

这个速度暗示了一种可能性:Sigrid Jin 或其 AI 工具实际上接触了泄露的源码,而非通过观察行为来推断规范。 正如 chardet 案例中原作者 Mark Pilgrim 所指出的:"他们声称这是'完全重写'是无关紧要的,因为他们有充分的机会接触到原始许可代码(即,这不是'净室'实现)" [3]。

维度二:oh-my-codex 的本质------它不是"净室"工具

oh-my-codex (OMX) 本质上是 OpenAI Codex CLI 的工作流增强层 ,提供角色路由( a r c h i t e c t 、 architect、 architect、executor、 r a l p h 、 ralph、 ralph、team)和工作流管理 [4]。它的定位是"保持 Codex 作为执行引擎"并在其上添加更好的工作层。

这里存在一个根本性的问题:净室重写的核心是"知识隔离"------实现团队绝不能接触原始源码。 但 oh-my-codex 的工作方式是让 OpenAI Codex 模型执行代码生成,而 OpenAI Codex 模型的训练数据极有可能包含了 Claude Code 的公开文档、社区讨论甚至早期的泄露内容。这意味着:

  1. "实现者"(Codex 模型)可能已经在训练阶段"看过"了与 Claude Code 相关的信息
  2. Sigrid Jin 自己明确接触过泄露的源码(他是最早公开泄露的人之一)
  3. 不存在一个"洁净团队"从零开始实现

正如 Plagiarism Today 的 Jonathan Bailey 所批评的:"在编程机器人没有在源代码材料上训练过这件事上,我不会认真对待那些(带有玩笑性质的)保证" [5]。

维度三:代码结构的高保真度------"功能复制"而非"独立设计"

如果 Claw-Code 是真正的独立设计,我们预期会看到:

  • 不同的模块组织方式
  • 不同的命名约定
  • 不同的设计决策(如不同的权限模型、不同的记忆架构)

但实际上,Claw-Code 的 Rust 架构与原始 Claude Code 的 TypeScript 架构存在极高的结构对应关系:

原始 Claude Code (TypeScript) Claw-Code (Rust)
src/QueryEngine.ts (~46,000行) runtime crate (16 个模块)
src/Tool.ts (~29,000行,40个工具) tools crate (19个工具)
src/commands.ts (~85个命令) commands crate (15个命令)
bridge/ (IDE集成) 未实现
coordinator/ (多Agent编排) agent-mcp crate
MCP 集成 mcp + mcp_client 模块
OAuth 认证 oauth 模块
三层内存架构 config 模块 (CLAUDE.md 发现)
权限系统 (三道门) permissions 模块 (Allow/Deny/Prompt)

这种近乎一一对应的关系更像是一个翻译映射(TypeScript → Rust),而非独立的重新设计。真正的独立实现通常会产生不同的架构选择------例如,不一定会保持完全相同的"三层内存架构"或"16次工具调用迭代上限"。

维度四:LLM 训练数据污染问题

这是当前 AI 净室重写面临的最大法律盲区。正如 chardet 案例中自由软件基金会执行董事 Zoë Kooyman 所指出的:"一个已经吸收了它被要求重新实现的代码的大型语言模型,没有任何'干净'可言" [3]。

具体到 Claw-Code 的情况:

  • Claude Code 在泄露前已有大量公开文档、博客文章、社区讨论
  • OpenAI Codex 的训练数据几乎必然包含这些公开信息
  • Claude Code 本身在 2025 年 2 月就有过一次泄露,相关讨论也存在于互联网上
  • GPT 系列模型的训练数据包含 GitHub 公开仓库

n1n.ai 的分析文章指出:"如果要求智能体实现一个知名库,它可能会从其内部权重中提取信息,而非严格遵循你提供的规格说明书,这相当于绕过了'洁净'要求" [6]。

维度五:法律策略的矛盾

Claaw-Code 项目本身的行为模式存在自相矛盾:

  1. 最先公开泄露代码的人声称"净室重写":Sigrid Jin 是最先将泄露源码公开到 GitHub 的人,随后又声称自己进行了净室重写。这在逻辑上矛盾------如果一开始就打算净室重写,为何要先公开原始代码?
  2. 从 TypeScript 到 Rust 的语言切换:这确实是降低侵权风险的有效策略(语义隔离),但如果真的是纯粹的"功能观察后独立实现",为何第一步是 Python 重写(与原始 TypeScript 更接近)而非直接 Rust?
  3. Anthropic 的 DMCA 行动选择了特定目标:Anthropic 对直接托管原始 TypeScript 代码的仓库进行了 DMCA 清理(8,100+ 仓库),但 claw-code 目前仍然存在。这可能意味着 Anthropic 认识到对"净室重写"发起 DMCA 在法律上有风险,也可能是战术选择。

三、如何真正验证?

如果要对 Claw-Code 进行独立验证,以下是可行的方法:

1. 代码相似度检测

  • 使用 JPlagMOSS 等工具对 Claw-Code 的 Rust 代码与泄露的 TypeScript 代码进行跨语言相似度检测
  • 由于语言不同,传统工具可能效果有限,但可以比较 AST(抽象语法树)的结构相似度
  • 参考标准:chardet 7.0 的相似度检测显示最高仅 1.29% [3],而 Claw-Code 预期会更高(因为功能对应关系更紧密)

2. 设计决策审计

  • 对比 Claw-Code 与 Claude Code 在以下方面的设计决策是否一致:
    • 权限模型的三级策略(Allow/Deny/Prompt)
    • 16 次工具调用迭代上限
    • 三层内存架构(轻量索引/主题文件/会话历史)
    • 12 阶段启动管道
    • 对话压缩策略(保留最近 4 条消息,最大 10,000 token)
  • 如果这些非显而易见的设计选择完全一致,则强烈暗示存在直接参照

3. 规范文档审查

  • 检查 Claw-Code 仓库中是否存在独立的功能规范文档(净室重写的必要产物)
  • 审查 Git 提交历史,看是否存在"先写规范后写代码"的证据链
  • 检查是否有"污染团队"和"洁净团队"的角色分离记录

4. 变量名和注释分析

  • 即使语言不同,如果变量命名习惯、注释风格、错误消息措辞过于相似,也能说明问题
  • 特别关注内部术语(如 "KAIROS"、"autoDream"、"ULTRAPLAN")的使用------这些是泄露后才公开的内部代号

5. Git 历史取证

  • 分析 Claw-Code 的提交历史,看是否有可以追溯到泄露时间点之前的"独立开发"证据
  • 检查是否有从泄露源码仓库 clone/pull 的记录
  • 检查 oh-my-codex 的会话日志是否保存了与原始代码交互的证据

四、法律定性分析

可能不构成版权侵权的理由

  • 语言从 TypeScript 切换为 Rust,属于不同的"表达"
  • 软件的思想/架构/功能不受版权保护(思想-表达二分法)
  • Anthropic 目前未对 claw-code 发起 DMCA(可能意味着法律团队认为胜算不大)

可能构成侵权的理由

  • 结构、顺序和组织(SSO)的过度相似
  • 非显而易见的设计选择的复制(如 12 阶段启动管道、FNV-1a 哈希配置检测)
  • 如果能证明 Codex 模型从训练数据中"回忆"了 Claude Code 的代码

AI 时代的法律空白

正如 Ars Technica 所指出的,这引出了一个更深层的问题:"Claude 的模型是基于从公共互联网抓取的大量数据进行训练的,这意味着 Claude 极有可能在其训练过程中吸收了先前 chardet 版本的开源代码。这种先前的'知识'是否意味着 Claude 的创作是原作品的'衍生品',即使新代码在结构上与旧代码不同,这也是一个悬而未决的问题" [3]。这个问题同样适用于 Claw-Code。

五、结论与判断

Claw-Code 最可能的真实情况是:

  1. 不是一个法律意义上的净室重写(缺乏知识隔离、证据链和审计流程)
  2. 可能不构成严格法律意义上的版权侵权(因为语言切换提供了足够的"表达差异")
  3. 是一个利用 AI 工具快速功能复刻的产物,介于"独立实现"和"翻译复制"之间
  4. 它的存在暴露了 AI 时代版权法的严重滞后------当 LLM 可以在几小时内"重写"任何代码时,传统的"净室"概念和法律框架都面临根本性挑战

最关键的一点:Claude Code 的泄露是 Anthropic 自身的错误所致,而 Claw-Code 的出现加速了 AI Agent 技术的民主化。无论其法律定性如何,这个事件已经不可逆转地改变了行业格局。

参考文献

  1. Clean Room Reverse Engineering Complete Writeup v1 (2026-03-21)
  2. Legality of Reverse Engineering & Clean Room Reversing
  3. Ars Technica - AI can rewrite open source code---but can it rewrite the license, too?
  4. GitHub - Yeachan-Heo/oh-my-codex
  5. Plagiarism Today - Cleanroom as a Service: AI-Washing Copyright
  6. n1n.ai - Can AI Coding Agents Enable Open Source Relicensing via Clean Room Implementation?
  7. Hong Minhee - Is legal the same as legitimate: AI reimplementation and the erosion of copyleft
  8. 品玩 - Anthropic 启动法律反击 大规模下架泄露代码
  9. Decrypt - Anthropic Accidentally Leaked Claude Code's Source
  10. JPlag - Source Code Plagiarism Detection Tool
相关推荐
财经汇报3 小时前
“蜂联AI Agent”推动普惠创新 看AI如何助力供应链金融
大数据·人工智能·金融
咕噜签名-铁蛋3 小时前
云部署 OpenClaw 与飞书无缝对接完整指南
服务器·人工智能·飞书
电子科技圈3 小时前
芯科科技驱动和重塑智能门锁行业格局多协议、安全性、AI技术与开发工具共同赋能
大数据·人工智能·嵌入式硬件·mcu·物联网·智能家居·iot
陈天伟教授3 小时前
人工智能应用- 人工智能风险与伦理:01.数据安全
前端·人工智能·安全·xss·csrf
白小筠3 小时前
Pytorch之张量的基本操作
人工智能·pytorch·python
reset20213 小时前
安防监控中目标检测方案探讨
人工智能·yolo·目标检测·目标跟踪
weixin_668898643 小时前
Bert解读
人工智能·机器学习·bert
wuxuand3 小时前
读顶刊综述:新兴技术下深度学习入侵检测的现状、鸿沟与未来
人工智能·深度学习
神奇小汤圆3 小时前
OpenClaw:让 AI 真正"干活"的私有智能体平台
人工智能