AI CLI 三巨头横评：Claude Code vs Codex CLI vs Gemini CLI（2026实测）

上周我在一个微服务项目上重构支付模块------12个文件，跨三个目录，涉及 Stripe 旧 API 迁移。

先试了 Codex CLI，十来秒就跑完了。一看代码，逻辑是对的，但有个边界条件没处理。再试 Claude Code，它先读了十多秒（1M token 上下文，整个项目塞了进去），然后开始改。慢是真慢，但改完我几乎不用调。

我还特地用 Gemini CLI 跑了同一个任务------免费的，1M 上下文，开 Deep Think 模式。结果嘛......只能说符合它的价格。

这不是一篇评测软文。我花了三天时间，用同一组任务测试了这三个 CLI 工具------不是为了跑分，是真实干活。下面是我的结论。

先表态：三个工具，三个哲学

AI CLI 赛道在 2026 年已经杀成红海了。但真正站住的，也就这三家。

工具	开发商	核心模型	开源？	起售价
Claude Code	Anthropic	Opus 4.6	❌ 闭源	$20/月（Pro）
Codex CLI	OpenAI	GPT-5.3-Codex	✅ Apache 2.0	$20/月（ChatGPT Plus）
Gemini CLI	Google	Gemini 3 Pro	✅ 开源	免费（1000次/天）

数据来自官方文档和 SWE-bench 公开榜单。

它们的差异不只是模型不同，而是架构哲学完全不同：

Claude Code：本地运行，深度推理。改代码前先把整个项目"读一遍"，脑子里建好依赖图再动手。慢，但准。
Codex CLI：默认跑在云端沙箱里。隔离执行，安全第一。速度快，token 用量省，适合"你明确知道要改什么"的场景。
Gemini CLI：免费、开源、超大上下文。1M token 是标配，不是 beta。还带 Google Search grounding，能实时查最新文档。

怎么选？看场景。

数据不会说谎：Benchmark 对比

先上硬数据。注意不同 Benchmark 测的东西不一样，直接比数字有陷阱。

指标	Claude Code (Opus 4.6)	Codex CLI (GPT-5.3-Codex)	Gemini CLI (Gemini 3 Pro)
SWE-bench Verified	80.8%	56.8%（SWE-bench Pro）	未官方公布
Terminal-Bench 2.0	65.4%	77.3%	未官方公布
OSWorld Verified	72.7%	64.7%	未官方公布
首次修改正确率	~95%	~90%	~85-88%
Token 效率	基准线	2-3x 更省	介于两者之间
生成速度	~15-25 tok/s	~65-70 tok/s（Spark: 1000+）	~30-40 tok/s

一个关键发现：SWE-bench Verified 和 SWE-bench Pro 不是同一个东西。Verified 测的是经过人工确认的解决方案，Pro 跨 4 种语言。80.8% vs 56.8% 的差距是真实的，但你不能直接拿这两个数字说"Claude 比 Codex 强 24 个百分点"------它们测的不是同一套题。

但首次修改正确率这件事，我实测下来确实和表格里的数字对得上。Claude Code 经常一次改对，Codex CLI 偶尔漏个边缘 case，Gemini CLI......嗯，需要盯一下。

深度体验：每个工具到底好在哪

Claude Code：适合"我不确定怎么改"的场景

Claude Code 的 Agent Teams 功能是真能打。上次我让它重构用户认证模块：

复制代码

claude "Set up an agent team:
- Agent 1: refactor auth module to JWT
- Agent 2: update integration tests
- Agent 3: update API docs
Coordinate through team lead. Merge when CI passes."

三个子 agent 并行干活，一个 orchestrator 协调上下文、解决冲突。最后 CI 直接绿了。

不过也有翻车的时候。有一次在一个大项目里跑久了（超过 1000 回合），它开始"遗忘"某些文件的修改状态------上下文虽然大，但会话管理还是有天花板。

Codex CLI：适合"我知道要改什么，快就行"

Codex CLI 的沙箱模式我一开始觉得鸡肋------谁需要隔离啊？直到有一次让它跑自动化脚本，它差点删了我本地一个配置文件。沙箱救了命。

速度是真的快。Spark 变体在 Cerebras 硬件上能跑到 1000+ tok/s------我一开始以为数据错了，实测下来，复杂任务确实比 Claude Code 快 3-5 倍。

但深度不行。有一次我让它排查一个跨模块的竞态条件 bug，它找到了表面症状，没找到根因。同样的 bug，Claude Code 一路追到了三层抽象以下的锁问题。

说得直白点：Codex CLI 是个优秀的执行者，但不是个优秀的思考者。

Gemini CLI：免费的到底行不行

Gemini CLI 最大的优势不是技术，是价格。

1000 次/天免费，连信用卡都不要。你有一个 Google 账号就能用。这一点对于预算紧张的个人开发者或学生来说，杀伤力巨大。

而且它的 1M token 上下文不是画饼------是标配。我试过把一个中型 Node.js 项目（大概 80 个文件）整个丢进去，它确实能引用到项目深处的代码。

问题是------准确率。同样是修复一个跨模块的 bug，Gemini CLI 给了方案 A，我说不对，它换方案 B，还不对......来回五次才定位到问题。Claude Code 一次就找到了。

不过 Google Search grounding 这功能是真的香。写依赖最新 API 的代码时，Claude Code 和 Codex CLI 的知识可能已经过时了（训练数据截止日期在那），但 Gemini CLI 能实时查文档。

价格：不是越贵越好

使用场景	推荐工具	月费估算	理由
学生/个人开发	Gemini CLI	免费	1000次/天够用
日常 CRUD/小项目	Codex CLI	$20	速度快，token省
复杂重构/架构调整	Claude Code	$20-100	一次改对的成本优势
团队协作/CI 集成	混合使用	$40-120	各取所长
预算无限	Claude Code Max 20x	$200	Agent Teams + 高配额

这里有个反直觉的结论：Claude Code 虽然单价最贵，但单次任务成本可能最低------因为它一次改对的概率高，省掉了后续的调试迭代。

你该怎么选？

一句话总结：

不确定怎么改，选 Claude Code。确定怎么改、想快点完事，选 Codex CLI。不想花钱、或需要超大上下文，选 Gemini CLI。

最好的开发者------2026 年我看到越来越多的人------其实是三个都用。日常开发用 Gemini CLI（免费），复杂重构切到 Claude Code，跑自动化脚本丢给 Codex CLI 的沙箱。

你平时用哪个？遇到过什么坑？评论区说说，我整理到后续文章里。

数据来源：SWE-bench 公开榜单、Terminal-Bench 2.0、各产品官方文档+个人实测。Benchmark 数据截至 2026 年 5 月。