Codex CLI 实战指南:5 月连发 6 次更新,把 GPT-5.5 装进终端的完整工作流(含跟 Claude Code 搭配方案)

Codex CLI 实战指南:5 月连发 6 次更新,把 GPT-5.5 装进终端的完整工作流(含跟 Claude Code 搭配方案)

原文首发于公众号「开发者效率局」,欢迎关注获取更多 AI 编程实战。
5 月份 OpenAI Codex CLI 连发了 6 个版本(0.131.0 → 0.135.0),加上 macOS App 26.519 和 26.527,把终端里跑 GPT-5.5 这件事从"凑合能用"推到了"日常主力"。这篇讲清楚 Codex 这套工作流的实际样子,以及怎么跟你已经在用的 Claude Code 搭配起来用。

你为什么也该装一个

我自己是 Claude Code 重度用户,过去一年大部分活都在那里干。所以最开始装 Codex 时心态是"试一下,没准看个热闹"。一周后我开始把它当成日常主力之一------不是替代 Claude Code,而是它擅长的事 Claude Code 不一定擅长

最直观的几个差异点:

  • Codex 跑 GPT-5.5,Claude Code 跑 Opus 4.8。两个模型在某些任务上的偏好不一样:Codex 改 UI 代码更稳,Claude 做架构推理更深
  • Codex App 的 Appshots / 桌面控制:直接把当前 macOS 或 Windows 窗口发给它看,对调试 GUI 应用是降维打击
  • Goals 模式默认开了:你给一个高层目标,它自己拆解 + 跟踪进度
  • 统一 @ mentions:文件、目录、插件、skill 一个 picker 全搞定

你不需要选边站。我现在的实际工作流是两个一起开:分工不同的活派给不同的 agent。

30 秒装上 + 跑通第一个任务

bash 复制代码
# 装
npm install -g @openai/codex     # 需要 Node.js 22+
# 或 curl 一键
curl -fsSL https://chatgpt.com/codex/install.sh | sh

# 认证
codex auth                        # 用 ChatGPT 账号登录,或填 OPENAI_API_KEY

跑通:

bash 复制代码
cd your-project
codex -- "show me what this codebase does, then suggest 3 improvements"

第一次跑会进 suggest 模式 ------默认最安全的档,每个文件改动 / 每条 shell 命令都要你确认。别急着切到 agent 模式------先用一两天 suggest 模式建立信任。

三种操作模式:用错了会出事

模式 行为 用在哪
suggest(默认) 每个改动都问你 第一次跑、改关键代码、生产仓库
agent--sandbox workspace-write 在 workspace 内自主改文件 日常无人值守,跑测试改代码
danger--dangerously-bypass-approvals-and-sandbox 完全不问,所有 shell 命令直接跑 只能在隔离 VM 里用

最实用的一档是中间的 --sandbox workspace-write:它能改 workspace 里的文件、跑 npm/test 命令,但碰不到 workspace 外的文件、网络受限:

bash 复制代码
codex --sandbox workspace-write -- "fix all failing tests in tests/auth/"

danger 模式我强烈不建议在本机用。要无人值守,老老实实开一个 Docker container 或 VM。

5 月最值得记的 3 个新功能

1. 统一 @ mentions(0.131.0,5/18)

@ 弹一个 picker,文件 / 目录 / 插件 / skill 全在里面:

text 复制代码
> @api-routes refactor these to use Hono syntax, and run @smoke-tests after

好用的关键不是少打几个字符,是减少切换上下文的成本------视线不离 prompt 输入框,要派的活一气写完。

2. Goals 模式(0.133.0,5/21 默认开启)

旧 Codex 是"一次一个 prompt"。Goals 模式是给目标,它自己拆解 + 跟踪进度 + 完成子任务

bash 复制代码
codex --goal "ship a working OAuth integration for Google SSO,
              including login flow, callback handler, and tests"

屏幕上挂一个进度面板:

text 复制代码
Goal: Ship OAuth integration
├── ✓ Set up Google Cloud project credentials  (1 turn)
├── ✓ Add /auth/login route                    (3 turns)
├── ⠿ Implement callback handler               (2 turns, in progress)
├── · Add session storage                      (waiting)
└── · Write integration tests                  (waiting)

Tokens: 124k / blended      Time: 18m

跟 Claude Code 的 Plan Mode + TodoWrite 加起来差不多,但整合度更高------背后维护一个 graph,子任务的依赖、阻塞、回退都自己管。Goals 在使用量限制时会停在当前子任务而不是死循环

3. Appshots + Windows 桌面控制(5/21 + 5/29)

直接操作桌面 GUI 应用------Claude Code 没碰过的领域。

macOS 上按两次 Command 键,当前 frontmost 窗口的截图发给 Codex(叫 Appshots):

text 复制代码
[按两次 Cmd 键,把当前 Figma 窗口发过去]

> Look at this Figma frame. Generate the React + Tailwind code that matches it.
  Save to src/components/PricingCard.tsx.

5/29 又加上了 Windows 桌面自动化------不只能看 Windows 窗口,还能主动点击、输入、滚动。从 ChatGPT 移动端或 Mac 远程驱动 Windows 设备。

对前端开发、设计还原、UI 自动化测试,这一个能力顶半个工作流。

一个真实的实战例子:跨仓库任务

Goals 模式 + @ mentions 一起上:

bash 复制代码
codex --goal "implement feature X in @backend repo,
              update API contract in @api-types,
              add UI in @web-app,
              then write an integration test that runs across all three"

它会:

  1. 起 3 个独立的 worktree(一个仓库一个)
  2. 在 backend 改 handler + DB schema
  3. 在 api-types 更新 TypeScript 定义并发 patch 版本
  4. 在 web-app bump 依赖、调用新接口
  5. 写端到端测试,跑通就算成功

在每个 worktree 里独立 commit ,最后给你 3 个分支让你审过再合。它不会替你 push------设计上的红线。

跟 Claude Code 的 Agent Teams 比,Codex 跨仓库工作流更"轻"------不需要预先 TeamCreate,但协调能力没 Agent Teams 那么细。50 行以内的 PR 用 Codex,大重构 Claude Code Agent Teams 更稳。

怎么跟 Claude Code 搭配

场景 用谁 原因
改 UI / 跟设计稿对照 Codex(Appshots) 直接看 Figma 截图改代码
跨仓库 feature Codex(Goals + worktrees) 一句话起 3 个仓库的活
大规模重构 Claude Code(Agent Teams) 协调能力更细
全仓库扫描 Claude Code(Dynamic Workflows) 1000 个 subagent 上限
终端高频小活 Claude Code 上下文管理更细
Windows 自动化 / 远程桌面 Codex 唯一能干这事的
跟 GitHub Issue 联动 Codex(GitHub MCP + Goals) 集成度更高
架构推理 / 设计决策 Claude Code(Opus 4.8 + plan) 推理质量更深

关键认知 :不是"哪个更强",是两个模型擅长不同的事。同时装、按场景挑,是最划算的策略。

5 个必须知道的坑

坑 1:默认模型不一定是 GPT-5.5

旧版本配置文件里写的是 gpt-5.3-codex。升级 CLI 之后老配置不会自动更新:

toml 复制代码
# ~/.codex/config.toml
model = "gpt-5.5"               # 不是 gpt-5.3-codex
approval_policy = "on-request"
sandbox_mode = "workspace-write"

坑 2:GPT-5.2 / 5.2-Codex 6 月初下线

6/1 是 GPT-5.2 在 GitHub Copilot 里下线的日期,OpenAI 这边 6/5。如果你 pipeline 写死 model 名是 gpt-5.2-codex,赶紧改

坑 3:codex doctor 是你的第一个调试入口

5/28 加的诊断命令,一行查环境 / Git / 终端 / app-server 状态:

bash 复制代码
codex doctor

任何"为啥不工作"先跑这个。Node 版本太老、PATH 缺失、认证过期都能查出来。

坑 4:danger 模式真的会烧掉你的机器

--dangerously-bypass-approvals-and-sandbox 听着像玩笑名字,实际就是"我同意 AI 跑任何命令"。只能在隔离环境里用 。本机用一次踩到 rm -rf 你哭都来不及。

坑 5:Appshots 默认会发送当前窗口的全部内容

包括屏幕上的密码、token、个人信息。派 Codex 看截图前先关掉 1Password、邮件、敏感聊天窗口

总结

5 月 Codex 这 6 个版本叠加起来:

  • suggest / agent / danger 三档自主程度 ,日常用中间档 workspace-write
  • 统一 @ mentions 减少切换成本
  • Goals 模式默认开启,给目标自己拆解
  • Appshots + Windows 桌面控制是别人没有的能力
  • 跟 Claude Code 不替代、是分工------按场景挑

如果你之前没装过 Codex,这周值得花 30 分钟装一个,跑通 suggest 模式 + 一个 Goal 实战。一旦体验过 Appshots 看着 Figma 写代码,或者用 Goals 起一个跨仓库 feature,你会回不去单一工具的状态。


如果觉得有帮助,欢迎点赞收藏 👍

更多 AI 编程实战,关注公众号「开发者效率局」,每周二/四更新。

相关推荐
全栈技术负责人1 小时前
老项目新需求AI前端开发指南
前端·ai编程
人月神话-Lee1 小时前
【图像处理】vImage/Accelerate——SIMD 让 CPU 也能飞
图像处理·深度学习·ios·cnn·ai编程·swift
winlife_2 小时前
让 AI 自动跑 PlayMode 回归测试:从 BUG 注入到自动判 FAIL 的完整闭环
人工智能·unity·bug·ai编程·mcp·回归测试·游戏测试
恋猫de小郭2 小时前
能在手机本地跑的图像生成模型 Bonsai Image ,效果还不错
前端·aigc·ai编程
知彼解己2 小时前
SQLite 核心实战:后端工程师视角
后端·golang·ai编程
wuhen_n2 小时前
阿里云百炼平台 API 接入教程(附 Node.js + TypeScript 实战)
前端·人工智能·阿里云·ai编程
Mr.huang2 小时前
面向驾驭工程的 MCP-Agent 研发运维闭环自动化模型研究
ai编程·devops
神奇的代码在哪里3 小时前
【单机离线版】大学考试题库复习工具:前端离线Excel解析 + localStorage持久化 + Playwright
前端·html·ai编程·题库复习·刷题软件·大学考试
创实信息3 小时前
从安装到首次运行:GitHub Copilot CLI 新手完整上手指南
github·copilot·ai编程·ai助手