Codex CLI 实战指南：5 月连发 6 次更新，把 GPT-5.5 装进终端的完整工作流（含跟 Claude Code 搭配方案）

原文首发于公众号「开发者效率局」，欢迎关注获取更多 AI 编程实战。
5 月份 OpenAI Codex CLI 连发了 6 个版本（0.131.0 → 0.135.0），加上 macOS App 26.519 和 26.527，把终端里跑 GPT-5.5 这件事从"凑合能用"推到了"日常主力"。这篇讲清楚 Codex 这套工作流的实际样子，以及怎么跟你已经在用的 Claude Code 搭配起来用。

你为什么也该装一个

我自己是 Claude Code 重度用户，过去一年大部分活都在那里干。所以最开始装 Codex 时心态是"试一下，没准看个热闹"。一周后我开始把它当成日常主力之一------不是替代 Claude Code，而是它擅长的事 Claude Code 不一定擅长。

最直观的几个差异点：

Codex 跑 GPT-5.5，Claude Code 跑 Opus 4.8。两个模型在某些任务上的偏好不一样：Codex 改 UI 代码更稳，Claude 做架构推理更深
Codex App 的 Appshots / 桌面控制：直接把当前 macOS 或 Windows 窗口发给它看，对调试 GUI 应用是降维打击
Goals 模式默认开了：你给一个高层目标，它自己拆解 + 跟踪进度
统一 @ mentions：文件、目录、插件、skill 一个 picker 全搞定

你不需要选边站。我现在的实际工作流是两个一起开：分工不同的活派给不同的 agent。

30 秒装上 + 跑通第一个任务

bash 复制代码

# 装
npm install -g @openai/codex     # 需要 Node.js 22+
# 或 curl 一键
curl -fsSL https://chatgpt.com/codex/install.sh | sh

# 认证
codex auth                        # 用 ChatGPT 账号登录，或填 OPENAI_API_KEY

跑通：

bash 复制代码

cd your-project
codex -- "show me what this codebase does, then suggest 3 improvements"

第一次跑会进 suggest 模式 ------默认最安全的档，每个文件改动 / 每条 shell 命令都要你确认。别急着切到 agent 模式------先用一两天 suggest 模式建立信任。

三种操作模式：用错了会出事

模式	行为	用在哪
suggest（默认）	每个改动都问你	第一次跑、改关键代码、生产仓库
agent （`--sandbox workspace-write`）	在 workspace 内自主改文件	日常无人值守，跑测试改代码
danger （`--dangerously-bypass-approvals-and-sandbox`）	完全不问，所有 shell 命令直接跑	只能在隔离 VM 里用

最实用的一档是中间的 --sandbox workspace-write：它能改 workspace 里的文件、跑 npm/test 命令，但碰不到 workspace 外的文件、网络受限：

bash 复制代码

codex --sandbox workspace-write -- "fix all failing tests in tests/auth/"

danger 模式我强烈不建议在本机用。要无人值守，老老实实开一个 Docker container 或 VM。

5 月最值得记的 3 个新功能

1. 统一 `@` mentions（0.131.0，5/18）

打 @ 弹一个 picker，文件 / 目录 / 插件 / skill 全在里面：

text 复制代码

> @api-routes refactor these to use Hono syntax, and run @smoke-tests after

好用的关键不是少打几个字符，是减少切换上下文的成本------视线不离 prompt 输入框，要派的活一气写完。

2. Goals 模式（0.133.0，5/21 默认开启）

旧 Codex 是"一次一个 prompt"。Goals 模式是给目标，它自己拆解 + 跟踪进度 + 完成子任务。

bash 复制代码

codex --goal "ship a working OAuth integration for Google SSO,
              including login flow, callback handler, and tests"

屏幕上挂一个进度面板：

text 复制代码

Goal: Ship OAuth integration
├── ✓ Set up Google Cloud project credentials  (1 turn)
├── ✓ Add /auth/login route                    (3 turns)
├── ⠿ Implement callback handler               (2 turns, in progress)
├── · Add session storage                      (waiting)
└── · Write integration tests                  (waiting)

Tokens: 124k / blended      Time: 18m

跟 Claude Code 的 Plan Mode + TodoWrite 加起来差不多，但整合度更高------背后维护一个 graph，子任务的依赖、阻塞、回退都自己管。Goals 在使用量限制时会停在当前子任务而不是死循环。

3. Appshots + Windows 桌面控制（5/21 + 5/29）

直接操作桌面 GUI 应用------Claude Code 没碰过的领域。

macOS 上按两次 Command 键，当前 frontmost 窗口的截图发给 Codex（叫 Appshots）：

text 复制代码

[按两次 Cmd 键，把当前 Figma 窗口发过去]

> Look at this Figma frame. Generate the React + Tailwind code that matches it.
  Save to src/components/PricingCard.tsx.

5/29 又加上了 Windows 桌面自动化------不只能看 Windows 窗口，还能主动点击、输入、滚动。从 ChatGPT 移动端或 Mac 远程驱动 Windows 设备。

对前端开发、设计还原、UI 自动化测试，这一个能力顶半个工作流。

一个真实的实战例子：跨仓库任务

Goals 模式 + @ mentions 一起上：

bash 复制代码

codex --goal "implement feature X in @backend repo,
              update API contract in @api-types,
              add UI in @web-app,
              then write an integration test that runs across all three"

它会：

起 3 个独立的 worktree（一个仓库一个）
在 backend 改 handler + DB schema
在 api-types 更新 TypeScript 定义并发 patch 版本
在 web-app bump 依赖、调用新接口
写端到端测试，跑通就算成功

在每个 worktree 里独立 commit ，最后给你 3 个分支让你审过再合。它不会替你 push------设计上的红线。

跟 Claude Code 的 Agent Teams 比，Codex 跨仓库工作流更"轻"------不需要预先 TeamCreate，但协调能力没 Agent Teams 那么细。50 行以内的 PR 用 Codex，大重构 Claude Code Agent Teams 更稳。

怎么跟 Claude Code 搭配

场景	用谁	原因
改 UI / 跟设计稿对照	Codex（Appshots）	直接看 Figma 截图改代码
跨仓库 feature	Codex（Goals + worktrees）	一句话起 3 个仓库的活
大规模重构	Claude Code（Agent Teams）	协调能力更细
全仓库扫描	Claude Code（Dynamic Workflows）	1000 个 subagent 上限
终端高频小活	Claude Code	上下文管理更细
Windows 自动化 / 远程桌面	Codex	唯一能干这事的
跟 GitHub Issue 联动	Codex（GitHub MCP + Goals）	集成度更高
架构推理 / 设计决策	Claude Code（Opus 4.8 + plan）	推理质量更深

关键认知 ：不是"哪个更强"，是两个模型擅长不同的事。同时装、按场景挑，是最划算的策略。

5 个必须知道的坑

坑 1：默认模型不一定是 GPT-5.5

旧版本配置文件里写的是 gpt-5.3-codex。升级 CLI 之后老配置不会自动更新：

toml 复制代码

# ~/.codex/config.toml
model = "gpt-5.5"               # 不是 gpt-5.3-codex
approval_policy = "on-request"
sandbox_mode = "workspace-write"

坑 2：GPT-5.2 / 5.2-Codex 6 月初下线

6/1 是 GPT-5.2 在 GitHub Copilot 里下线的日期，OpenAI 这边 6/5。如果你 pipeline 写死 model 名是 gpt-5.2-codex，赶紧改。

坑 3：`codex doctor` 是你的第一个调试入口

5/28 加的诊断命令，一行查环境 / Git / 终端 / app-server 状态：

bash 复制代码

codex doctor

任何"为啥不工作"先跑这个。Node 版本太老、PATH 缺失、认证过期都能查出来。

坑 4：danger 模式真的会烧掉你的机器

--dangerously-bypass-approvals-and-sandbox 听着像玩笑名字，实际就是"我同意 AI 跑任何命令"。只能在隔离环境里用 。本机用一次踩到 rm -rf 你哭都来不及。

坑 5：Appshots 默认会发送当前窗口的全部内容

包括屏幕上的密码、token、个人信息。派 Codex 看截图前先关掉 1Password、邮件、敏感聊天窗口。

总结

5 月 Codex 这 6 个版本叠加起来：

suggest / agent / danger 三档自主程度 ，日常用中间档 workspace-write
统一 @ mentions 减少切换成本
Goals 模式默认开启，给目标自己拆解
Appshots + Windows 桌面控制是别人没有的能力
跟 Claude Code 不替代、是分工------按场景挑

如果你之前没装过 Codex，这周值得花 30 分钟装一个，跑通 suggest 模式 + 一个 Goal 实战。一旦体验过 Appshots 看着 Figma 写代码，或者用 Goals 起一个跨仓库 feature，你会回不去单一工具的状态。

如果觉得有帮助，欢迎点赞收藏 👍

更多 AI 编程实战，关注公众号「开发者效率局」，每周二/四更新。

Codex CLI 实战指南：5 月连发 6 次更新，把 GPT-5.5 装进终端的完整工作流（含跟 Claude Code 搭配方案）