AI CLI 三巨头横评:Claude Code vs Codex CLI vs Gemini CLI(2026实测)

上周我在一个微服务项目上重构支付模块------12个文件,跨三个目录,涉及 Stripe 旧 API 迁移。

先试了 Codex CLI,十来秒就跑完了。一看代码,逻辑是对的,但有个边界条件没处理。再试 Claude Code,它先读了十多秒(1M token 上下文,整个项目塞了进去),然后开始改。慢是真慢,但改完我几乎不用调。

我还特地用 Gemini CLI 跑了同一个任务------免费的,1M 上下文,开 Deep Think 模式。结果嘛......只能说符合它的价格。

这不是一篇评测软文。我花了三天时间,用同一组任务测试了这三个 CLI 工具------不是为了跑分,是真实干活。下面是我的结论。

先表态:三个工具,三个哲学

AI CLI 赛道在 2026 年已经杀成红海了。但真正站住的,也就这三家。

工具 开发商 核心模型 开源? 起售价
Claude Code Anthropic Opus 4.6 ❌ 闭源 $20/月(Pro)
Codex CLI OpenAI GPT-5.3-Codex ✅ Apache 2.0 $20/月(ChatGPT Plus)
Gemini CLI Google Gemini 3 Pro ✅ 开源 免费(1000次/天)

数据来自官方文档和 SWE-bench 公开榜单。

它们的差异不只是模型不同,而是架构哲学完全不同

  • Claude Code:本地运行,深度推理。改代码前先把整个项目"读一遍",脑子里建好依赖图再动手。慢,但准。
  • Codex CLI:默认跑在云端沙箱里。隔离执行,安全第一。速度快,token 用量省,适合"你明确知道要改什么"的场景。
  • Gemini CLI:免费、开源、超大上下文。1M token 是标配,不是 beta。还带 Google Search grounding,能实时查最新文档。

怎么选?看场景。

数据不会说谎:Benchmark 对比

先上硬数据。注意不同 Benchmark 测的东西不一样,直接比数字有陷阱。

指标 Claude Code (Opus 4.6) Codex CLI (GPT-5.3-Codex) Gemini CLI (Gemini 3 Pro)
SWE-bench Verified 80.8% 56.8%(SWE-bench Pro) 未官方公布
Terminal-Bench 2.0 65.4% 77.3% 未官方公布
OSWorld Verified 72.7% 64.7% 未官方公布
首次修改正确率 ~95% ~90% ~85-88%
Token 效率 基准线 2-3x 更省 介于两者之间
生成速度 ~15-25 tok/s ~65-70 tok/s(Spark: 1000+) ~30-40 tok/s

一个关键发现:SWE-bench Verified 和 SWE-bench Pro 不是同一个东西。Verified 测的是经过人工确认的解决方案,Pro 跨 4 种语言。80.8% vs 56.8% 的差距是真实的,但你不能直接拿这两个数字说"Claude 比 Codex 强 24 个百分点"------它们测的不是同一套题。

首次修改正确率这件事,我实测下来确实和表格里的数字对得上。Claude Code 经常一次改对,Codex CLI 偶尔漏个边缘 case,Gemini CLI......嗯,需要盯一下。

深度体验:每个工具到底好在哪

Claude Code:适合"我不确定怎么改"的场景

Claude Code 的 Agent Teams 功能是真能打。上次我让它重构用户认证模块:

复制代码
claude "Set up an agent team:
- Agent 1: refactor auth module to JWT
- Agent 2: update integration tests
- Agent 3: update API docs
Coordinate through team lead. Merge when CI passes."

三个子 agent 并行干活,一个 orchestrator 协调上下文、解决冲突。最后 CI 直接绿了。

不过也有翻车的时候。有一次在一个大项目里跑久了(超过 1000 回合),它开始"遗忘"某些文件的修改状态------上下文虽然大,但会话管理还是有天花板。

Codex CLI:适合"我知道要改什么,快就行"

Codex CLI 的沙箱模式我一开始觉得鸡肋------谁需要隔离啊?直到有一次让它跑自动化脚本,它差点删了我本地一个配置文件。沙箱救了命。

速度是真的快。Spark 变体在 Cerebras 硬件上能跑到 1000+ tok/s------我一开始以为数据错了,实测下来,复杂任务确实比 Claude Code 快 3-5 倍。

但深度不行。有一次我让它排查一个跨模块的竞态条件 bug,它找到了表面症状,没找到根因。同样的 bug,Claude Code 一路追到了三层抽象以下的锁问题。

说得直白点:Codex CLI 是个优秀的执行者,但不是个优秀的思考者。

Gemini CLI:免费的到底行不行

Gemini CLI 最大的优势不是技术,是价格

1000 次/天免费,连信用卡都不要。你有一个 Google 账号就能用。这一点对于预算紧张的个人开发者或学生来说,杀伤力巨大。

而且它的 1M token 上下文不是画饼------是标配。我试过把一个中型 Node.js 项目(大概 80 个文件)整个丢进去,它确实能引用到项目深处的代码。

问题是------准确率。同样是修复一个跨模块的 bug,Gemini CLI 给了方案 A,我说不对,它换方案 B,还不对......来回五次才定位到问题。Claude Code 一次就找到了。

不过 Google Search grounding 这功能是真的香。写依赖最新 API 的代码时,Claude Code 和 Codex CLI 的知识可能已经过时了(训练数据截止日期在那),但 Gemini CLI 能实时查文档。

价格:不是越贵越好

使用场景 推荐工具 月费估算 理由
学生/个人开发 Gemini CLI 免费 1000次/天够用
日常 CRUD/小项目 Codex CLI $20 速度快,token省
复杂重构/架构调整 Claude Code $20-100 一次改对的成本优势
团队协作/CI 集成 混合使用 $40-120 各取所长
预算无限 Claude Code Max 20x $200 Agent Teams + 高配额

这里有个反直觉的结论:Claude Code 虽然单价最贵,但单次任务成本可能最低------因为它一次改对的概率高,省掉了后续的调试迭代。

你该怎么选?

一句话总结:

不确定怎么改,选 Claude Code。确定怎么改、想快点完事,选 Codex CLI。不想花钱、或需要超大上下文,选 Gemini CLI。

最好的开发者------2026 年我看到越来越多的人------其实是三个都用。日常开发用 Gemini CLI(免费),复杂重构切到 Claude Code,跑自动化脚本丢给 Codex CLI 的沙箱。

你平时用哪个?遇到过什么坑?评论区说说,我整理到后续文章里。


数据来源:SWE-bench 公开榜单、Terminal-Bench 2.0、各产品官方文档+个人实测。Benchmark 数据截至 2026 年 5 月。

相关推荐
心中有国也有家7 小时前
ascend-boost-comm:一次写完,到处复用——算子公共平台的 M×N 哲学
人工智能·经验分享·笔记·分布式·算法
skilllite作者7 小时前
# EXboys/skilllite — 安全的AI智能体演进:介绍 SkillLite
人工智能·安全
AI科技星7 小时前
空间圆柱螺旋运动第一性原理终极推导·证明·核验·全量纲闭环
开发语言·人工智能·算法·计算机视觉·量子计算
老王谈企服7 小时前
跨系统数据搬运总是要靠人工复制粘贴?2026智能体重塑企业数据流转新范式
人工智能·ai
思诺学长7 小时前
世界模型是什么?
人工智能
CHEN5_027 小时前
Agent开发基础概念
agent·ai编程
neocheng_5227 小时前
拒绝短视频浪费时间,自学AI实现自我提升
人工智能
LCG元7 小时前
深耕 RAG 工程,解锁大模型知识库开发之路
人工智能·语言模型
段一凡-华北理工大学7 小时前
2026 高炉炼铁智能化技术全景与演进路径~系列文章04:云-边-端协同架构:高炉智能化底层支撑体系
数据库·人工智能·深度学习·神经网络·安全·架构·高炉炼铁智能化