AI 编程怎么选模型?Claude、GPT-5.4、DeepSeek 我全试了,这是我的真实体验

两天前林俊旸发了篇长文,标题叫《From "Reasoning" Thinking to "Agentic" Thinking》,核心观点是:推理模型的时代使命已经完成了,接下来是智能体的时代。

这篇文章在掘金热榜上也引发了不少讨论。说实话,我看到标题的第一反应是,终于有人把这事儿挑明了。

过去几个月,我在项目中把 Claude Opus 4.6、Sonnet 4.6、GPT-5.4、DeepSeek V4、o3 都轮了个遍。最大的感受是:选模型这件事,远没有跑个 benchmark 排行榜那么简单。

先说我走过的弯路

去年底 o3 发布的时候,我跟很多人一样,"推理能力强 = 编程能力强"这个等式在脑子里根深蒂固。毕竟 o3 在数学推理和竞赛题上的表现太炸裂了,很自然就觉得拿来写代码也是降维打击。

于是我把 Claude Code 和 Cursor 的默认模型都换成了 o3。

一个月下来,问题暴露得很明显。

首先是推理模型"想太多"。日常写个 CRUD 接口或者改个组件,o3 会生成一大段思维链,翻来覆去论证半天,最后写出来的代码和 Sonnet 差不多。但 token 消耗是 3-5 倍。

然后是推理不等于准确。像"写一个带搜索过滤的表格组件"这种需求,推理模型偶尔会因为想多了搞出过度设计,加一堆你根本不需要的抽象层。

最让我肉疼的是成本。o3 的推理 token 计费让月度账单直接涨了 60%,产出却没什么质的变化。个人开发者扛不住这个。

不同任务的表现差异,比我预想的大

踩完坑之后,我花了大概两个月时间,有意识地在不同任务上轮换模型,记录哪个好使。以下全是实际项目里的体验,不是对着 benchmark 表格编的。

日常开发(占工作量 70%+)

包括写 React 组件、调 REST 接口、改 CSS、写配置文件这些活儿。

我的体验是 Claude Sonnet 4.6 最好使。反应快,输出干净,理解上下文的能力很强。价格只有 Opus 的 1/5 左右。我现在 90% 的日常开发都扔给它。

复杂架构和大规模重构

需要理解整个项目结构、做跨文件改动的场景。

Claude Opus 4.6 的上下文理解目前最强,给它一个几万行的项目,它能准确定位改动点之间的依赖关系。不过 GPT-5.4 在 SWE-bench Pro(更难的多语言评测)上分数更高,57.7% vs Opus 的 45.89%。碰到不熟悉的语言框架时,GPT-5.4 泛化得更好。

算法和数学相关

这是推理模型真正的主场。涉及复杂算法设计、数学证明、逻辑推导的任务,o3-pro 的表现确实领先一截。Aider 的测试里 o3-pro 拿了 84.9%。

但这类任务在日常工作中占比不到 10%。为了这 10% 把所有任务都用贵 5 倍的推理模型,有点大炮打蚊子。

Debug 和错误排查

有点出乎意料,Sonnet 4.6 在 debug 上经常比 Opus 和 o3 还快。给它一段报错信息或者异常行为描述,它能很快锁定问题。我猜 debug 更需要直觉和模式匹配,不太吃长链推理那一套。

国产模型

DeepSeek V4 在中文文档生成和国内技术栈适配上表现不错,价格也低。但在处理大型英文代码库的复杂任务时,和 Claude/GPT 还有差距。适合做辅助,不建议当主力。

Benchmark 已经说明不了问题了

今年 3 月的 SWE-bench Verified 排名很有意思:

模型 得分
Claude Opus 4.6 80.8%
Gemini 3.1 Pro 80.6%
MiniMax M2.5 80.2%
GPT-5.4 ~80%
Claude Sonnet 4.6 79.6%

六个头部模型挤在 1.3% 的区间里。差距已经小到几乎没有实际意义了。

和林俊旸说的一样,模型本身的能力已经到了一个平台期。接下来的差距不在模型上。

我现在的选择策略

任务类型 首选模型 原因
日常开发(组件/接口/样式) Sonnet 4.6 快、准、便宜
架构设计/重构 Opus 4.6 上下文理解最好
不熟悉的语言/框架 GPT-5.4 泛化能力强
算法/数学 o3-pro 推理能力确实强
中文内容/国内框架 DeepSeek V4 中文生态好,价格低
Debug Sonnet 4.6 直觉式排查更快

实际操作中有个细节很重要:模型切换要无感。我现在用 API 聚合服务(类似 ofox.ai 这种),一个 endpoint 就能在不同模型之间切换。Claude Code、Cursor、Cline 全都指向同一个地址,改个模型名就行,比每个工具单独配 Key 省事太多。

比选模型更重要的事

林俊旸那篇文章里有句话我记住了:竞争优势不再来自更好的算法,而是更好的环境设计。

翻译成人话就是,你怎么给 AI 搭环境、写约束,比你选哪个模型重要得多。

最近很火的 Harness Engineering(驾驭工程)讲的就是这个。LangChain 做过一个实验:他们的 coding agent 在 Terminal-Bench 2.0 上,只优化了外部环境(文档结构、验证循环、追踪系统),成绩就从 52.8% 到了 66.5%。模型没换,参数没动。

我自己也深有体会。给 AI 编程工具配好详细的项目说明文件、设好 lint 自动检查和测试流水线之后,代码一次通过率至少提高了 30%。模型还是那个模型,但结果天差地别。

所以如果你现在还在纠结"到底哪个模型最强",建议换个方向使劲:

写好项目约束文件,把编码规范、技术栈、架构决策都喂给 AI。配好自动化反馈,lint、type check、测试要能自动跑,AI 看到报错会自己修。还有就是别贪大,一次让 AI 改 20 个文件大概率翻车,拆成小任务靠谱得多。

总结一句话

头部模型之间的差距已经很小了,纠结选哪个不如琢磨怎么用好它们。

非要我只推荐一个的话:Sonnet 4.6 打底,复杂任务临时切 Opus 或 GPT-5.4。大部分开发场景,这套组合就够了。

相关推荐
镜花水月linyi2 小时前
一口气讲清楚 Agent、RAG、Skill、MCP 到底是什么?
人工智能·agent·mcp
Narrastory2 小时前
明日香 - Pytorch 快速入门保姆级教程(九)
人工智能·pytorch·深度学习
Codebee2 小时前
企业微信、钉钉、飞书三大平台的IM Skills与Apex深度融合
人工智能
用户5757303346242 小时前
🚀 告别“意大利面条”代码:用 LangChain 像搭乐高一样玩转大模型
人工智能
蕤葳-2 小时前
深度解析:基于AI人才标准,为职场新人规划一级与二级认证的报考路径
人工智能
只与明月听2 小时前
RAG深入学习之向量数据库
前端·人工智能·python
jump_jump2 小时前
RTK:给 AI 编码助手瘦身的 Rust 代理
性能优化·rust·claude
月诸清酒2 小时前
别让你的 Coding Agent 瞎忙活,你最缺的可能是这套 Harness 规则
人工智能
极客老王说Agent2 小时前
别被OpenClaw的30万Star晃了眼!AI产业逻辑重写后,打工人更该看清谁在“真干活”
人工智能·ai·chatgpt