Anthropic 首次公开内部数据:80% 的代码已经由 AI 编写

Anthropic 首次公开内部数据:80% 的代码已经由 AI 编写

Anthropic 刚发了一篇文章,标题叫《When AI builds itself》。不是那种泛泛而谈的展望,而是拿出了真金白银的内部数据,告诉你:AI 正在加速构建 AI 本身,而且速度比大多数人想象的快得多。

一个最炸裂的数字:截至 2026 年 5 月,Anthropic 合并到代码库里的代码,80% 以上由 Claude 编写

这不是演示,不是实验,是生产环境的真实数据。

AI 开始自递归我迭代时代。

什么叫递归自我改进?简单说就是:AI 系统自己设计并构建下一代 AI 系统。 不是人写代码让 AI 变强,而是 AI 自己写代码让自己变强。

这个循环一旦闭合,进步速度就不再取决于人类工程师的产出,而是取决于算力和算法效率。Anthropic 在文章里画了一条时间线:

  • 2021--2023:人写代码,AI 不参与
  • 2023--2025:人用聊天机器人辅助写代码
  • 2025--2026:AI 能独立编写和编辑整个文件
  • 今天:AI 自己跑代码,还能把工作委派给其他 AI
  • 20XX:AI 构建和训练自身的下一代模型

我们现在在第四步。第五步还没到,但趋势线指的方向很明确。

AI 能力的增速在加快

先看外部基准测试的变化:

  • AI 能独立完成的任务时长,从每 7 个月翻一番 加速到每 4 个月翻一番
  • 2024 年 3 月,Claude 能完成 4 分钟的任务;2025 年 3 月,1.5 小时;2026 年 3 月,12 小时
  • SWE-bench(真实 bug 修复测试):两年内从个位数得分到饱和
  • CORE-Bench(论文复现测试):2024 年成功率 20%,15 个月后饱和

如果趋势持续,数天的任务今年就能纳入范围,数周的任务 2027 年可能搞定。

Anthropic 内部发生了什么

公开基准只能看到能力,看不到对 AI 开发本身的影响。这部分是文章的核心。

如果你只想先抓住这一节最重要的变化,可以先看下面这张图。

这张图对应后文的核心判断:Anthropic 的变化不是单点突破,而是代码来源、工程节奏、研究速度和质量审查同时改写了。

工程端:8 倍产出

2021-2024 年,每位工程师每天合并的代码量很稳定。2025 年 Claude 开始自己跑代码时,曲线抬头。2026 年模型能长时间自主工作时,曲线加速。到 2026 年 Q2,典型工程师每天合并的代码量是 2024 年的 8 倍

8 倍这个数字肯定高估了真实生产力(代码行数不是好指标),但它说明了一件事:加速度是真实的。 Anthropic 不按代码行数考核,产出增加纯粹是因为用 AI 写了更多代码。

一个具体的例子:2026 年 4 月,Claude 提交了 800 多个修复,把一类 API 错误减少了一千倍。监督的工程师说,人类做这件事要四年。

研究端:从助手到竞争对手

实验优化的基准测试里,2025 年 5 月 Claude Opus 4 达到约 3 倍加速;2026 年 4 月 Claude Mythos Preview 达到 52 倍。作为参照,熟练人类研究员要 4-8 小时才能到 4 倍。

更有意思的是研究判断力测试。给模型看一段「即将走偏」的研究会话,问它下一步做什么。2025 年 11 月,最好的模型 51% 的情况优于人类选择;2026 年 4 月,这个数字到了 64%

文章原话:「研究品味」可能只是 AI 系统暂时做不好的又一项能力,然后就会变得擅长。

代码质量:今年内会超过人类

Claude 写的代码在 2025 年底比 Anthropic 人类工程师略差,今天基本持平。文章判断:预计年内会严格超过人类。

现在 Anthropic 每次代码变更都会先过一遍自动化 Claude 审查。回溯分析发现,这个自动审查本可以提前捕获 claude.ai 过去事故中 三分之一 的 bug。写那些代码的是世界上最好的工程师。Claude 在抓他们漏掉的错误。

AI 开发循环的演进

如果你更想先理解"递归自我改进"为什么现在突然变得具体,这张图会更直观。

先记住这个主线:AI 先是帮人写代码,接着开始独立完成整段工作流,最后才逼近"帮自己变得更强"的闭合回路。

Anthropic 把这几年画成了一张图,非常直观:

我将里面的文字的内容整理成了表格

时间 阶段 人在做什么
2021--2023 建造第一个 Claude 人写代码、写文档,跟其他公司一样
2023--2025 聊天机器人 让 AI 生成短代码片段,人复制粘贴
2025--2026 编码智能体 AI 能独立编写和编辑代码,处理整个文件
今天 自主智能体 AI 自己跑代码,还能把工作委派给其他 AI
20XX? 闭合回路 AI 构建和训练自身模型,Claude 由 Claude 改进

我们现在大概在第四行。第五行就是递归自我改进。

三种未来

如果你习惯按分叉路径理解趋势,可以先看这张图。

图里的意思其实很简单:真正需要准备的,不是"AI 会不会变强",而是它会沿着哪条路径继续加速。

文章提出了三种可能的走向:

场景一:趋势停滞。 指数曲线其实是 S 曲线,能力增长见顶。但即使冻结在今天的水平,100 人的公司也能干 1000 人的活。Anthropic 认为这个场景不太可能。

场景二:持续加速,但人类仍掌舵。 AI 开发基本自动化,人类负责选方向和判断结果。100 人公司干 10 万人的活。Anthropic 认为我们正在进入这个场景。但阿姆达尔定律也适用------加速一部分只是把瓶颈推到别处,现在人类代码审查已经成了新瓶颈。

场景三:完整的递归自我改进。 AI 自己设计后继版本,人类只做监督和验证。进步速度完全由算力决定。这是最不确定的场景------对齐问题可能解决,也可能随着模型自我迭代而失控。

Anthropic 的态度

文章最后一段值得细读。Anthropic 的立场是:

如果能有效地减慢发展速度来赢得应对时间,那可能是好事。但如果减速只是让最不谨慎的人追上来,反而更危险。

他们正在研究如何构建一个可信的验证机制------让各方能确认其他人确实停了,然后 Anthropic 才愿意一起慢下来。但训练运行比导弹发射井更容易隐藏,可信暂停在技术上非常难。

坦白讲,这段话的信息量比前面的数据还大。一个前沿 AI 公司公开说"我们愿意慢下来,前提是别人也能证明他们慢下来了"------这本身就是一种信号。

最后说两句

这篇文章的分量不在于展望,在于数据。80% 的代码、8 倍产出、52 倍加速------这些不是预测,是已经发生的事。

递归自我改进还没到来,但 AI 构建 AI 的循环已经在加速转动。问题不是它会不会来,而是我们准备好了没有。

Anthropic 说得直接:共同调查这些问题的窗口就在眼前,AI 公司之外的人应该参与这种协商。

相关推荐
ZzT2 小时前
中转站到底靠不靠谱?我写了个测评工具,先测了微元算力(weytoken)
人工智能·程序员·ai编程
沈麽鬼2 小时前
豆包?哦不,是我菜包!新手AI全栈实战:Cursor开发复刻AI聊天助手
人工智能·ai编程·vibecoding
avi91113 小时前
AI工具-口播-读网页(需要梯子)Read Aloud
aigc·ai工具·口播·读文本
程序员老刘3 小时前
官方俩月没回复的系统Bug,我用AI几分钟破案
ai编程·客户端
孟健3 小时前
Codex Sites来了,做站入口变了
ai编程
To_OC4 小时前
阿里云多模态图片生成!抛弃SDK手写Fetch请求,我终于搞懂了大模型调用底层
javascript·后端·aigc
wuhen_n4 小时前
LangGraph 入门:AI Agent 工作流可视化编排
前端·langchain·ai编程
wuhen_n4 小时前
LangChain Agent 优化:提升智能体决策准确率
前端·langchain·ai编程