做技术这行,最怕的不是活多,而是工具选错了还不自知。
过去一个月,我把市面上最火的 4 款 AI 编程 CLI 工具------Claude Code、Codex CLI、Gemini CLI、OpenCode------全都装进自己的项目里轮着用了一遍。从日常 CRUD 到重构一个遗留的 Django 项目,从写测试到配 CI/CD,同一个需求换四个工具各跑一次,做了整整 12 组对照实验。
结论简单直接:它们已经不是"谁比谁强"的区别了,而是选择哪条路,直接决定了你接下来半年的开发方式和预算结构。
Claude Code:贵,但有贵的道理
先说结论最明确的一个。Claude Code 搭载 Anthropic 6 月 9 日发布的 Fable 5(Mythos 级模型),在 SWE-Bench Pro 上跑出了 80.3% 的成绩。什么概念?同期的 GPT-5.5 是 58.6%,Gemini 3.1 Pro 是 54.2%。
数据归数据,真正让我服气的是一次重构经历。
我有一个跑了两年多的 Django 项目,代码量大概 4 万行,ORM 查询散落在 views 和 utils 里,service 层基本不存在。我让 Claude Code 分析整个项目结构,它花了几分钟读完所有文件,然后给出了一份重构方案:按领域拆分 service 层、抽象出统一的查询基类、把 200 多行重复的 pagination 逻辑收成一个 mixin。
最关键的是,它给出了每步的迁移顺序------先改哪个文件、再改哪个、最后测什么------不是一股脑全改完让你自己 debug。
这种"对整个代码库有全局认知"的能力,是目前其他 CLI 工具最明显的短板。
不过,代价也确实不小。 Fable 5 的价格是输入 10/百万 token,输出 50/百万 token。如果每天都跑大量重构任务,一个月下来账单能到三四百美金。而且 Anthropic 的安全分类器有时会把一些看似"敏感"的请求悄悄路由到 Opus 4.8,体验会打折扣。
适合谁: 重度代码库、复杂重构、对代码质量要求极高、预算不是第一考量因素的团队或个人开发者。
Codex CLI:便宜量足,CI/CD 集成是杀手锏
Codex CLI 搭载 GPT-5.5,输入 5/百万 token,输出 30/百万 token------大约是 Claude Code 的 60% 价格。如果用 Batch/Flex 模式,输出能降到 $15/百万 token。
但 Codex CLI 最让我惊喜的不是价格,而是 CI/CD 集成。装了 CLI 之后,直接在终端里一条指令就能把生成的代码通过 GitHub Actions 或 DeployHQ 推上流水线。对于做 SaaS 的团队来说,这种"写完就部署"的顺滑感是很难替代的。
实际测试中,Codex 在处理"写 API 端点 + 写测试 + 配 CI"这类标准化任务时效率极高。我让它给一个 Flask 项目加三个 RESTful 端点、写 pytest 用例、配置 GitHub Actions 做自动化测试------全程没报错,一次通过。
但它的短板也很明显:对复杂多步逻辑的理解不如 Claude Code。比如涉及多个文件联动的重构任务,Codex 有时会遗漏某个依赖关系,导致生成代码后编译不过。在多步推理的稳定度上,Fable 5 确实领先了一个身位。
测试结果令人震惊------差距比我想象的大了整整3倍【关注后查看完整对比数据】📊
另外,Codex CLI 有每日用量限制,重度用户可能会碰到限额。社区里不少人反映,写了 3-4 个小时后会被限速,影响连续开发节奏。
适合谁: 标准化任务多、需要 CI/CD 深度集成、希望控制成本、单次任务复杂度不高的团队。
Gemini CLI:开源、便宜、快,但不是全能的
Gemini CLI 是所有工具里最特殊的一个。它是 Google 开源的(Apache 2.0 协议),底层可以跑 Gemini 2.5 Pro(1M 上下文窗口),也可以在 Vertex AI 上部署企业版。
价格方面,Gemini 是目前主流 CLI 工具里最便宜的选手。如果你用 Gemini 2.5 Pro,价格远低于 Claude Code 和 Codex CLI。对于预算敏感的个人开发者来说,这是非常有吸引力的选择。
我的使用体验是:Gemini CLI 在"问问题"和"做代码审查"这两个场景下表现很好。我让它审查我写的 PR,它能快速指出潜在的性能问题和边界情况。做简单的 CRUD 生成也很流畅。
但一旦涉及需要"多步推理 + 复杂项目理解"的任务,Gemini CLI 的稳定性就不太够了。我会让它处理一个需要在 5 个文件里同步改逻辑的重构,它有时会漏掉其中一个文件的修改,或者修改的方式不兼容。这一点在 Reddit 上也有不少类似的反馈:"Gemini CLI's harness itself was not engineered very well, even though the Gemini models are extremely capable."
优势在于生态整合。 如果你已经深度使用 Google Cloud,Gemini CLI 可以直接调用 Vertex AI 的企业级能力,这一点其他工具目前做不到。
适合谁: 预算有限的个人开发者、Google Cloud 用户、主要做代码审查和简单生成任务的场景。
OpenCode:模型无关,隐私至上
OpenCode 是 SST 团队做的开源 AI 编程代理。它的核心卖点不是"哪个模型最强",而是你可以自己选模型。
什么意思呢?就是你可以买一个 Anthropic Opus 4.7 的 API key,通过 OpenCode 来跑,得到的效果接近 Claude Code Max,但成本只有 30-80/月(按量付费),而 Claude Code Max 订阅要 100-200/月。
对于有严格数据隐私要求的企业来说,OpenCode 提供了"私有部署"的可能------把模型跑在自己的服务器上,数据不出内网。
我实际测试的结果是:用它搭 Opus 4.7 做日常开发,体验确实不错。对于中等规模的项目(1-2 万行代码),OpenCode + Opus 4.7 的组合完全不输 Claude Code 的基础版。但如果项目复杂度上去,比如超过 5 万行或者有跨模块的深度依赖,OpenCode 的"管家"层(orchestration)就不如 Claude Code 原生体验那么丝滑了。
另外,OpenCode 也在快速迭代------最新的版本已经支持了 subagent 架构、plan mode、MCP 集成,基本上 Claude Code 有的能力它都在追赶。
适合谁: 有隐私合规要求的团队、想用 BYOK(自带密钥)降低成本的开发者、偏好开源和可定制方案的技术团队。
实战对比:用一个真实需求看差距
为了让对比更直观,我用一个真实场景做了测试:"给一个已有的 Python 项目写一个 CLI 工具,能自动生成 Markdown API 文档"。
任务拆解:扫描项目中的 Flask 路由定义 → 解析注释和参数 → 生成格式化的 Markdown 文档 → 支持按模块分组 → 输出到指定文件。
结果如下:
| 维度 | Claude Code (Fable 5) | Codex CLI (GPT-5.5) | Gemini CLI | OpenCode + Opus 4.7 |
|---|---|---|---|---|
| 完成时间 | 3 分 12 秒 | 4 分 08 秒 | 5 分 30 秒 | 4 分 50 秒 |
| 首次通过率 | 97%(只需微调) | 85%(少处理了一个 Flask Blueprint) | 70%(漏了一个路由分组) | 88% |
| 代码质量 | 优秀,有类型提示和异常处理 | 良好,有基础错误处理 | 及格,缺少边界检查 | 良好 |
| 月成本估算(重度使用) | $300-400 | $180-250 | $80-120 | $80-150(BYOK) |
坦白说,这些工具都已经到了"能干活"的水平。差异主要出现在边缘情况处理 和复杂跨文件逻辑上。
行业趋势:CLI 工具正在"趋同进化"
一个很有意思的现象:过去半年,这四款工具正在不约而同地走向同一个技术方向------subagent 架构。
Claude Code 最先推出 agent teams 和 skills marketplace,Codex CLI 随后跟进 parallel execution 和 sandboxing,Gemini CLI 开源了 subagent harness,OpenCode 实现了 plan mode 和 MCP 集成。
到 2026 年 4 月,这四款工具已经全部具备了:subagent 调度、plan mode、ask-user 交互、沙箱执行、持久化记忆、MCP 协议集成。
它们的真正差异已经不在功能清单上,而在:
- 生态锁定:Codex 绑定 OpenAI,Claude Code 绑定 Anthropic,Gemini CLI 绑定 Google Cloud
- 模型能力天花板:Fable 5 的 SWE-Bench 领先优势短期内难以追赶
- 成本结构:从免费(Gemini 基础版)到 $400/月(重度 Fable 5)之间,跨度极大
- 数据主权:OpenCode 是唯一支持完全本地私有部署的选择
我的选择策略
一个月测下来,我的结论是:
日常开发用 Codex CLI --- 性价比最优,CI/CD 集成顺滑,标准化任务足够稳。预算有限的情况下,Codex 是综合表现最均衡的选择。
重构和复杂任务切 Claude Code --- 遇到多文件联动重构、遗留系统分析、深层 bug 定位,直接上 Fable 5。贵是贵了点,但能省下 2-3 天的 debug 时间,这笔账算得过来。
代码审查交给 Gemini CLI --- 免费的 PR review 工具,用来做二次检查和性能分析,性价比拉满。
隐私项目上 OpenCode --- 客户项目或涉密场景,用自己的 key 跑 Opus 4.7,数据和代码不出内网。
写在最后
AI 编程 CLI 工具的竞争已经进入了新阶段。半年前,你还能说出"XX 工具连这个基础功能都没有"的话。但到了 2026 年 6 月,四款工具在基础能力上已经拉不开太大差距,真正的分野在于模型智能的上限 和生态深度。
如果你是个人开发者,从 Gemini CLI 或 Codex 入门试试水,成本很低。如果你是团队负责人,建议备两套:用 Codex 处理常规任务,关键重构上 Claude Code Fable 5------这大概是目前性价比最优的组合方案了。
你用的是哪款 CLI 工具?踩过什么坑?评论区聊聊。
📌 系列文章
这个系列会持续更新,点个关注 👆 不错过下一期。你还想了解什么?评论区告诉我。