目前,LMArena 的 WebDev 榜单基本被"三巨头"霸占:Anthropic 的 Claude Opus 4.5、OpenAI 的 GPT-5.2-Codex (High),以及谷歌的明星产品 Gemini 3 Pro。
为了客观对比,我将这三个模型投入到同一个现有的开源项目中(omni-tools,拥有超过 8,000 Stars 和 5 万多行代码),要求它们像真正的开发者一样构建几个核心功能。
测试规则
-
同场竞技:相同的代码库、相同的提示词、相同的约束条件。
-
择优录取:每个任务运行 3次,取其中表现最好的一次结果。
-
评价标准:代码质量、交互(是否需要人工干预)以及功能最终的完成度。
-
工具链:
-
Claude Opus 4.5:使用 Claude Code(终端代理工具)。
-
Gemini 3 Pro:使用 Gemini CLI。
-
GPT-5.2 High:使用 Codex CLI。
-
任务 1:添加全局动作面板 (Ctrl + K)
需求描述: 构建一个类似 VS Code 的全局浮层菜单。
-
支持搜索和跳转工具。
-
执行特定动作(切换深色模式、语言切换、过滤用户类型、清除历史等)。
-
全键盘驱动(方向键导航、回车执行、Esc 关闭)。
-
难点:需理解现有 UX 模式,避免逻辑重复,且不能破坏原有的首页搜索功能。
1. GPT-5.2-Codex (High)
GPT-5.2 的表现令人惊叹。它几乎是**"一次性通关"**,完美实现了所有功能(包括 i18n 国际化支持),无需任何后期修正。
-
特点:由于推理级别设为 High,它花费了更多时间(约 20 分钟)在架构设计、命名规范和边缘情况的处理上,而非盲目输出。
-
结论:代码结构极佳。虽然 Token 消耗较高,但质量相比"中等推理"模式有质的飞跃。
-
成本:约 0.9 - 1.0 | 耗时:20 分钟。
2. Claude Opus 4.5
Claude 展现了极强的策略性。虽然初期遇到了编译错误,但它能自我迭代,通过不断运行构建命令来自行修复 Lint 和编译问题。
-
特点:速度极快(仅用 7 分 50 秒),是三者中最短的。UI 审美在线,完全符合预期,甚至连国际化文本的填充都恰到好处。
-
结论:堪称"电影级"的丝滑体验。
-
成本:$0.94 | 耗时:7 分 50 秒。
3. Gemini 3 Pro
Gemini 完成了基础功能,但明显不在同一梯队。
-
缺点:功能比较"简陋",动作面板中的选项较少。例如,它漏掉了面板内的语言切换功能,导致 i18n 支持显得支离破碎。
-
优点:得益于缓存读取(Cache Reads),它的成本极低,且运行稳定。
-
结论:稳居第三。虽然能用,但在深度、完整度和精致感上远逊于前两者。
任务 2:工具使用分析 + 数据看板
需求描述: 增加全应用的使用追踪,本地持久化数据,并构建一个分析看板(显示最常用工具、近期活动、数据过滤等)。
1. GPT-5.2-Codex (High)
再次神级发挥。
-
亮点:数据建模非常严谨,持久化逻辑清晰。最绝的是,它主动将新开发的分析看板快捷入口集成到了任务 1 构建的动作面板中。
-
结论:虽然耗时 26 分钟,但它在避免代码重复和数据解耦上的思考,让这部分代码看起来像是一个成熟产品的原生功能。
-
成本:约 1.1 - 1.2 | 耗时:26 分钟。
2. Claude Opus 4.5
表现同样优秀。
-
亮点:从 UI 视觉和功能完整度来看,几乎与 GPT-5.2 High 不相上下。看板设计非常现代,数据过滤功能响应迅速。
-
结论:在保持极高质量的同时,速度依然是它的巨大优势。
-
成本:$1.78 | 耗时:约 8 分钟。
3. Gemini 3 Pro
依旧走的是"极简风"。
-
缺点:UI 略显平淡,缺乏细节(如缺失了动作面板的集成按钮)。它更像是一个完成了作业的"学生",而非提供方案的"专家"。
-
优点:效率极高。通过缓存节省了 85% 以上的输入 Token,适合预算有限的大规模开发。
-
成本:极低 | 耗时:约 5 分钟。
总结与建议
|------|----------------------|-----------------|--------------|
| 维度 | GPT-5.2-Codex (High) | Claude Opus 4.5 | Gemini 3 Pro |
| 代码质量 | 极高 (逻辑严密) | 高 (审美极佳) | 中等 (基础实现) |
| 完成速度 | 较慢 (推理导向) | 极快 (效率之王) | 快 |
| 自主修错 | 优秀 | 顶级 (自动修复编译) | 一般 |
| 性价比 | 中等 | 一般 | 极高 |
核心结论:
现在的顶尖模型已经具备了**"一键生成"**复杂功能的能力。
-
如果你追求极致的架构设计和零 Bug,不介意多等十几分钟,GPT-5.2 High 是首选。
-
如果你追求开发效率和优秀的 UI 交互,Claude Opus 4.5 几乎无可挑剔。
-
Gemini 3 Pro 虽然在深度上稍逊一筹,但其巨大的缓存成本优势使其成为处理海量上下文或低成本开发的利器。
提示: 尽管模型表现惊艳,但偶尔仍会产出严重的逻辑错误。在某些极端情况下,修复 AI 错误的时间可能与手写代码相当,因此保持 Code Review 依然至关重要。