AI 编程怎么选模型？Claude、GPT-5.4、DeepSeek 我全试了，这是我的真实体验

两天前林俊旸发了篇长文，标题叫《From "Reasoning" Thinking to "Agentic" Thinking》，核心观点是：推理模型的时代使命已经完成了，接下来是智能体的时代。

这篇文章在掘金热榜上也引发了不少讨论。说实话，我看到标题的第一反应是，终于有人把这事儿挑明了。

过去几个月，我在项目中把 Claude Opus 4.6、Sonnet 4.6、GPT-5.4、DeepSeek V4、o3 都轮了个遍。最大的感受是：选模型这件事，远没有跑个 benchmark 排行榜那么简单。

先说我走过的弯路

去年底 o3 发布的时候，我跟很多人一样，"推理能力强 = 编程能力强"这个等式在脑子里根深蒂固。毕竟 o3 在数学推理和竞赛题上的表现太炸裂了，很自然就觉得拿来写代码也是降维打击。

于是我把 Claude Code 和 Cursor 的默认模型都换成了 o3。

一个月下来，问题暴露得很明显。

首先是推理模型"想太多"。日常写个 CRUD 接口或者改个组件，o3 会生成一大段思维链，翻来覆去论证半天，最后写出来的代码和 Sonnet 差不多。但 token 消耗是 3-5 倍。

然后是推理不等于准确。像"写一个带搜索过滤的表格组件"这种需求，推理模型偶尔会因为想多了搞出过度设计，加一堆你根本不需要的抽象层。

最让我肉疼的是成本。o3 的推理 token 计费让月度账单直接涨了 60%，产出却没什么质的变化。个人开发者扛不住这个。

不同任务的表现差异，比我预想的大

踩完坑之后，我花了大概两个月时间，有意识地在不同任务上轮换模型，记录哪个好使。以下全是实际项目里的体验，不是对着 benchmark 表格编的。

日常开发（占工作量 70%+）

包括写 React 组件、调 REST 接口、改 CSS、写配置文件这些活儿。

我的体验是 Claude Sonnet 4.6 最好使。反应快，输出干净，理解上下文的能力很强。价格只有 Opus 的 1/5 左右。我现在 90% 的日常开发都扔给它。

复杂架构和大规模重构

需要理解整个项目结构、做跨文件改动的场景。

Claude Opus 4.6 的上下文理解目前最强，给它一个几万行的项目，它能准确定位改动点之间的依赖关系。不过 GPT-5.4 在 SWE-bench Pro（更难的多语言评测）上分数更高，57.7% vs Opus 的 45.89%。碰到不熟悉的语言框架时，GPT-5.4 泛化得更好。

算法和数学相关

这是推理模型真正的主场。涉及复杂算法设计、数学证明、逻辑推导的任务，o3-pro 的表现确实领先一截。Aider 的测试里 o3-pro 拿了 84.9%。

但这类任务在日常工作中占比不到 10%。为了这 10% 把所有任务都用贵 5 倍的推理模型，有点大炮打蚊子。

Debug 和错误排查

有点出乎意料，Sonnet 4.6 在 debug 上经常比 Opus 和 o3 还快。给它一段报错信息或者异常行为描述，它能很快锁定问题。我猜 debug 更需要直觉和模式匹配，不太吃长链推理那一套。

国产模型

DeepSeek V4 在中文文档生成和国内技术栈适配上表现不错，价格也低。但在处理大型英文代码库的复杂任务时，和 Claude/GPT 还有差距。适合做辅助，不建议当主力。

Benchmark 已经说明不了问题了

今年 3 月的 SWE-bench Verified 排名很有意思：

模型	得分
Claude Opus 4.6	80.8%
Gemini 3.1 Pro	80.6%
MiniMax M2.5	80.2%
GPT-5.4	~80%
Claude Sonnet 4.6	79.6%

六个头部模型挤在 1.3% 的区间里。差距已经小到几乎没有实际意义了。

和林俊旸说的一样，模型本身的能力已经到了一个平台期。接下来的差距不在模型上。

我现在的选择策略

任务类型	首选模型	原因
日常开发（组件/接口/样式）	Sonnet 4.6	快、准、便宜
架构设计/重构	Opus 4.6	上下文理解最好
不熟悉的语言/框架	GPT-5.4	泛化能力强
算法/数学	o3-pro	推理能力确实强
中文内容/国内框架	DeepSeek V4	中文生态好，价格低
Debug	Sonnet 4.6	直觉式排查更快

实际操作中有个细节很重要：模型切换要无感。我现在用 API 聚合服务（类似 ofox.ai 这种），一个 endpoint 就能在不同模型之间切换。Claude Code、Cursor、Cline 全都指向同一个地址，改个模型名就行，比每个工具单独配 Key 省事太多。

比选模型更重要的事

林俊旸那篇文章里有句话我记住了：竞争优势不再来自更好的算法，而是更好的环境设计。

翻译成人话就是，你怎么给 AI 搭环境、写约束，比你选哪个模型重要得多。

最近很火的 Harness Engineering（驾驭工程）讲的就是这个。LangChain 做过一个实验：他们的 coding agent 在 Terminal-Bench 2.0 上，只优化了外部环境（文档结构、验证循环、追踪系统），成绩就从 52.8% 到了 66.5%。模型没换，参数没动。

我自己也深有体会。给 AI 编程工具配好详细的项目说明文件、设好 lint 自动检查和测试流水线之后，代码一次通过率至少提高了 30%。模型还是那个模型，但结果天差地别。

所以如果你现在还在纠结"到底哪个模型最强"，建议换个方向使劲：

写好项目约束文件，把编码规范、技术栈、架构决策都喂给 AI。配好自动化反馈，lint、type check、测试要能自动跑，AI 看到报错会自己修。还有就是别贪大，一次让 AI 改 20 个文件大概率翻车，拆成小任务靠谱得多。

总结一句话

头部模型之间的差距已经很小了，纠结选哪个不如琢磨怎么用好它们。

非要我只推荐一个的话：Sonnet 4.6 打底，复杂任务临时切 Opus 或 GPT-5.4。大部分开发场景，这套组合就够了。