Codex CLI 实战指南:5 月连发 6 次更新,把 GPT-5.5 装进终端的完整工作流(含跟 Claude Code 搭配方案)
原文首发于公众号「开发者效率局」,欢迎关注获取更多 AI 编程实战。
5 月份 OpenAI Codex CLI 连发了 6 个版本(0.131.0 → 0.135.0),加上 macOS App 26.519 和 26.527,把终端里跑 GPT-5.5 这件事从"凑合能用"推到了"日常主力"。这篇讲清楚 Codex 这套工作流的实际样子,以及怎么跟你已经在用的 Claude Code 搭配起来用。
你为什么也该装一个
我自己是 Claude Code 重度用户,过去一年大部分活都在那里干。所以最开始装 Codex 时心态是"试一下,没准看个热闹"。一周后我开始把它当成日常主力之一------不是替代 Claude Code,而是它擅长的事 Claude Code 不一定擅长。
最直观的几个差异点:
- Codex 跑 GPT-5.5,Claude Code 跑 Opus 4.8。两个模型在某些任务上的偏好不一样:Codex 改 UI 代码更稳,Claude 做架构推理更深
- Codex App 的 Appshots / 桌面控制:直接把当前 macOS 或 Windows 窗口发给它看,对调试 GUI 应用是降维打击
- Goals 模式默认开了:你给一个高层目标,它自己拆解 + 跟踪进度
- 统一
@mentions:文件、目录、插件、skill 一个 picker 全搞定
你不需要选边站。我现在的实际工作流是两个一起开:分工不同的活派给不同的 agent。
30 秒装上 + 跑通第一个任务
bash
# 装
npm install -g @openai/codex # 需要 Node.js 22+
# 或 curl 一键
curl -fsSL https://chatgpt.com/codex/install.sh | sh
# 认证
codex auth # 用 ChatGPT 账号登录,或填 OPENAI_API_KEY
跑通:
bash
cd your-project
codex -- "show me what this codebase does, then suggest 3 improvements"
第一次跑会进 suggest 模式 ------默认最安全的档,每个文件改动 / 每条 shell 命令都要你确认。别急着切到 agent 模式------先用一两天 suggest 模式建立信任。
三种操作模式:用错了会出事
| 模式 | 行为 | 用在哪 |
|---|---|---|
| suggest(默认) | 每个改动都问你 | 第一次跑、改关键代码、生产仓库 |
agent (--sandbox workspace-write) |
在 workspace 内自主改文件 | 日常无人值守,跑测试改代码 |
danger (--dangerously-bypass-approvals-and-sandbox) |
完全不问,所有 shell 命令直接跑 | 只能在隔离 VM 里用 |
最实用的一档是中间的 --sandbox workspace-write:它能改 workspace 里的文件、跑 npm/test 命令,但碰不到 workspace 外的文件、网络受限:
bash
codex --sandbox workspace-write -- "fix all failing tests in tests/auth/"
danger 模式我强烈不建议在本机用。要无人值守,老老实实开一个 Docker container 或 VM。
5 月最值得记的 3 个新功能
1. 统一 @ mentions(0.131.0,5/18)
打 @ 弹一个 picker,文件 / 目录 / 插件 / skill 全在里面:
text
> @api-routes refactor these to use Hono syntax, and run @smoke-tests after
好用的关键不是少打几个字符,是减少切换上下文的成本------视线不离 prompt 输入框,要派的活一气写完。
2. Goals 模式(0.133.0,5/21 默认开启)
旧 Codex 是"一次一个 prompt"。Goals 模式是给目标,它自己拆解 + 跟踪进度 + 完成子任务。
bash
codex --goal "ship a working OAuth integration for Google SSO,
including login flow, callback handler, and tests"
屏幕上挂一个进度面板:
text
Goal: Ship OAuth integration
├── ✓ Set up Google Cloud project credentials (1 turn)
├── ✓ Add /auth/login route (3 turns)
├── ⠿ Implement callback handler (2 turns, in progress)
├── · Add session storage (waiting)
└── · Write integration tests (waiting)
Tokens: 124k / blended Time: 18m
跟 Claude Code 的 Plan Mode + TodoWrite 加起来差不多,但整合度更高------背后维护一个 graph,子任务的依赖、阻塞、回退都自己管。Goals 在使用量限制时会停在当前子任务而不是死循环。
3. Appshots + Windows 桌面控制(5/21 + 5/29)
直接操作桌面 GUI 应用------Claude Code 没碰过的领域。
macOS 上按两次 Command 键,当前 frontmost 窗口的截图发给 Codex(叫 Appshots):
text
[按两次 Cmd 键,把当前 Figma 窗口发过去]
> Look at this Figma frame. Generate the React + Tailwind code that matches it.
Save to src/components/PricingCard.tsx.
5/29 又加上了 Windows 桌面自动化------不只能看 Windows 窗口,还能主动点击、输入、滚动。从 ChatGPT 移动端或 Mac 远程驱动 Windows 设备。
对前端开发、设计还原、UI 自动化测试,这一个能力顶半个工作流。
一个真实的实战例子:跨仓库任务
Goals 模式 + @ mentions 一起上:
bash
codex --goal "implement feature X in @backend repo,
update API contract in @api-types,
add UI in @web-app,
then write an integration test that runs across all three"
它会:
- 起 3 个独立的 worktree(一个仓库一个)
- 在 backend 改 handler + DB schema
- 在 api-types 更新 TypeScript 定义并发 patch 版本
- 在 web-app bump 依赖、调用新接口
- 写端到端测试,跑通就算成功
在每个 worktree 里独立 commit ,最后给你 3 个分支让你审过再合。它不会替你 push------设计上的红线。
跟 Claude Code 的 Agent Teams 比,Codex 跨仓库工作流更"轻"------不需要预先 TeamCreate,但协调能力没 Agent Teams 那么细。50 行以内的 PR 用 Codex,大重构 Claude Code Agent Teams 更稳。
怎么跟 Claude Code 搭配
| 场景 | 用谁 | 原因 |
|---|---|---|
| 改 UI / 跟设计稿对照 | Codex(Appshots) | 直接看 Figma 截图改代码 |
| 跨仓库 feature | Codex(Goals + worktrees) | 一句话起 3 个仓库的活 |
| 大规模重构 | Claude Code(Agent Teams) | 协调能力更细 |
| 全仓库扫描 | Claude Code(Dynamic Workflows) | 1000 个 subagent 上限 |
| 终端高频小活 | Claude Code | 上下文管理更细 |
| Windows 自动化 / 远程桌面 | Codex | 唯一能干这事的 |
| 跟 GitHub Issue 联动 | Codex(GitHub MCP + Goals) | 集成度更高 |
| 架构推理 / 设计决策 | Claude Code(Opus 4.8 + plan) | 推理质量更深 |
关键认知 :不是"哪个更强",是两个模型擅长不同的事。同时装、按场景挑,是最划算的策略。
5 个必须知道的坑
坑 1:默认模型不一定是 GPT-5.5
旧版本配置文件里写的是 gpt-5.3-codex。升级 CLI 之后老配置不会自动更新:
toml
# ~/.codex/config.toml
model = "gpt-5.5" # 不是 gpt-5.3-codex
approval_policy = "on-request"
sandbox_mode = "workspace-write"
坑 2:GPT-5.2 / 5.2-Codex 6 月初下线
6/1 是 GPT-5.2 在 GitHub Copilot 里下线的日期,OpenAI 这边 6/5。如果你 pipeline 写死 model 名是 gpt-5.2-codex,赶紧改。
坑 3:codex doctor 是你的第一个调试入口
5/28 加的诊断命令,一行查环境 / Git / 终端 / app-server 状态:
bash
codex doctor
任何"为啥不工作"先跑这个。Node 版本太老、PATH 缺失、认证过期都能查出来。
坑 4:danger 模式真的会烧掉你的机器
--dangerously-bypass-approvals-and-sandbox 听着像玩笑名字,实际就是"我同意 AI 跑任何命令"。只能在隔离环境里用 。本机用一次踩到 rm -rf 你哭都来不及。
坑 5:Appshots 默认会发送当前窗口的全部内容
包括屏幕上的密码、token、个人信息。派 Codex 看截图前先关掉 1Password、邮件、敏感聊天窗口。
总结
5 月 Codex 这 6 个版本叠加起来:
- suggest / agent / danger 三档自主程度 ,日常用中间档
workspace-write - 统一
@mentions 减少切换成本 - Goals 模式默认开启,给目标自己拆解
- Appshots + Windows 桌面控制是别人没有的能力
- 跟 Claude Code 不替代、是分工------按场景挑
如果你之前没装过 Codex,这周值得花 30 分钟装一个,跑通 suggest 模式 + 一个 Goal 实战。一旦体验过 Appshots 看着 Figma 写代码,或者用 Goals 起一个跨仓库 feature,你会回不去单一工具的状态。
如果觉得有帮助,欢迎点赞收藏 👍
更多 AI 编程实战,关注公众号「开发者效率局」,每周二/四更新。