coding 为什么成为模型前沿主战场

coding 会被推到模型前沿，不奇怪。它可能是少数同时满足三件事的场景：答案能被机器验收，任务能自然拉长，做出来的东西马上能进入真实工作流。

写作文、写报告、做营销文案也有价值，可这些任务的好坏很难稳定判分。代码不一样。编译能不能过，测试能不能绿，线上日志有没有报错，issue 有没有关掉，反馈很硬。模型在这种环境里训练和评估，少了很多自说自话的空间。

SWE-bench 最早把真实 GitHub issue 放进评测里，论文里提到首批最强模型 Claude 2 只能解决 1.96% 的问题。这个数字当时很低，却把方向找准了：模型要读仓库、理解 bug、改多个文件、跑测试，再根据失败结果回头修。

这张图把代码任务里的闭环拆开：问题、改动、测试和回滚都能留下硬反馈。

这也是 coding 和普通问答最大的差别。普通问答错了，很多时候只能靠人判断。代码错了，终端会直接报出来。模型可以被迫面对错误，也可以反复修正。这个过程很像一个初级工程师成长，只是反馈密度高得多。

METR 那篇长任务研究给了另一个观察：前沿模型能自主完成的任务时长，过去几年大约每七个月翻一倍。这个指标为什么常常落在软件任务上？因为软件工程天然适合拆成多个可检查步骤。拉代码、读文档、改实现、补测试、跑 CI，这条链路很长，但每一步都有迹可循。

长任务要在多个检查点之间持续修正，模型需要一路读错误、改实现、再验证。

对模型公司来说，coding 还有一个现实好处：他们自己天天用。

做模型、做工具、做推理框架、做评测系统，都需要工程效率。一个模型如果能帮自家工程师少掉一轮排查、少写一批胶水代码、快速搭出评测脚本，它的价值不会停留在演示里。模型公司天然愿意把最强资源砸到这里，因为收益能回流到研发本身。

Anthropic 在 Opus 4.7 的发布里也把高级软件工程、长时间任务、验证输出这些点放在显眼位置。公开表述里反复强调复杂编码、长期执行、自己检查结果，这说明 coding 已经从补全函数，走到了代理式工程任务。

这不代表所有人都会变成程序员。更可能发生的是，越来越多岗位会被代码化的工作方式影响。

运营要会让模型跑数据清洗脚本。

产品经理要能让 agent 拉日志、读用户反馈、整理需求差异。

研究员要会把资料抓取、去重、引用核查交给可复现流程。

小团队老板要懂一点自动化，知道什么任务可以交给 agent，什么地方必须人工拍板。

coding 能力会外溢到非程序员岗位，重点是把任务交给可检查的流程。

这里还有一层容易被忽略：coding 是 AI agent 的训练场，也会影响很多程序员之外的岗位。

Agent 要学会计划、调用工具、保存状态、失败重试、控制成本。代码仓库正好把这些能力打包了。一个能修复杂 issue 的模型，往往也更可能完成调研、表格、网页操作、文档改写这些跨工具任务。因为它学到的是如何在约束里行动。

当然，coding 热也会带来泡沫。很多产品会把自动补全包装成 agent，把一次生成包装成工程协作。判断它有没有真能力，不看宣传页，看三件小事就够了。

它能不能读懂现有项目，别只会新建 demo。

它能不能在测试失败后自己定位问题，别只会道歉重写。

它能不能把改动解释清楚，让人敢合并。

coding 成为主战场，程序员付费只是表层原因。代码给模型提供了一套少见的硬反馈系统。谁能在这里学会长任务、验证和修正，谁就更接近可用的生产力。