OpenAI Codex 0.105.0：按住空格键，对着终端说话就能写代码

还记得我之前写过一篇《Vibe Easily Everywhere》吗？当时为了在地铁上用手机给 Claude Code 下指令，我专门装了语音输入法------因为在手机小屏幕上 Vibe 实在太痛苦了，语音输入成了"移动端 Vibe Coding"的灵魂。

那篇文章发出去之后，评论区好多人问：电脑上能不能也用语音？

说实话，能。我后来在桌面端用上了 Typeless，一个专门给开发者设计的语音输入工具。体验确实不错------说话的速度大概是打字的 3-4 倍，而且它能识别技术术语，说"帮我重构 getUserById 这个函数"，出来的文字八九不离十。我连续用了几周，统计了一下，平均语速 158 词/分钟，比我打字快了将近一倍。

但还是有个别扭的地方：它毕竟是个外挂。你得先开 Typeless，再切到终端，按快捷键触发录音，说完了文字出现在输入框里，再按回车发送。步骤不多，但每次都要"跳出去再跳回来"，总感觉不够丝滑。

然后昨天，OpenAI 的 Codex CLI 推了 0.105.0。

我一看更新日志，愣了------按住空格键，直接语音输入，松开自动发送。原生支持，不用装任何外挂。

就这一个功能，我觉得值得单独写一篇。

语音输入：从"社区呼声最高"到"终于来了"

先说说背景。Codex CLI 的 GitHub 仓库里，有一个编号 #3000 的 Issue，标题就叫"Voice dictation / microphone input"。这个 Issue 拿到了 71 个大拇指，17 条评论，是社区呼声最高的功能请求之一。

评论区里能看到大家的折腾史：有人在用 Superwhisper（一个 Mac 端的语音输入工具），觉得"识别效果不错，但只能 Mac 用"；有人吐槽 Windows/WSL 用户被彻底晾在一边；还有人说"VSCode 里的语音输入只能在编辑器文件里用，Codex 面板里根本没法说话"。

0.105.0 一步到位，把这些问题全解决了。

开启方式也很简单，在 ~/.codex/config.toml 里加两行：

ini 复制代码

[features]
voice_transcription = true

保存后重启 Codex CLI 就行。

开启之后，操作方式简单到离谱：按住空格键 → 说话 → 松开 → 自动转文字发送给 AI

不需要装插件，不需要配第三方工具，不区分 Mac/Windows/Linux，Codex 原生支持。

我实际体验了一下午，说几个真实感受：

技术术语识别比预想的好。说"帮我检查一下 src/api/auth.ts 里的 validateToken 函数"，路径和函数名基本都能准确识别。这一点比通用语音输入法强不少------毕竟 Codex 是专门给开发者做的，语音模型大概率针对编程场景做过优化。

说话比打字更容易"想清楚"。这是我没预料到的。打字的时候，你会下意识地简化表达，因为敲键盘有成本。但说话的时候，你更容易把完整的上下文描述出来------"这个函数现在的问题是，当用户没有传 token 的时候，它会直接 crash，而不是返回一个 401 错误"------这种长句子说出来很自然，但要打字就觉得太长了，往往会缩成"validateToken 没处理空 token"。

结果就是，语音输入的时候，AI 拿到的上下文更丰富，给出的回答也更准确。

但中英文混合场景还有点毛糙。如果你一句话里又有中文描述又有英文函数名，偶尔会出现识别断档。比如"帮我把 getUserList 的返回值改成 pagination 格式"，有时候 getUserList 会被吞掉或者识别成别的东西。不影响大局，但期待后续版本优化。

场景确实有限制。安静的家里用、戴耳机用都很爽。但开放式办公室里对着屏幕说"帮我写一个删除用户的接口"......你可以想象一下同事的表情。

终端终于好看了：代码高亮 + 主题切换

如果你用过 Codex CLI 的老版本，可能对它的终端界面有一个吐槽：代码块看起来跟普通文本没什么区别，一眼扫过去分不清哪段是代码、哪段是解释。

0.105.0 终于解决了这个问题。

现在，Codex 的终端界面（TUI）支持语法高亮了------代码块、diff 对比都有颜色区分，一眼就能看出改了什么。

更贴心的是，它还加了一个 /theme 命令。输入之后会弹出一个主题选择器，你可以实时预览不同配色方案，挑一个顺眼的保存下来。浅色终端、深色终端都有对应的配色优化。

用过 Claude Code 的朋友可能会觉得眼熟------没错，Claude Code 早就有语法高亮和 /theme 主题切换了，配色方案也是深色浅色随时调。Codex 这次算是补上了这块短板，而且体验做得不错，主题选择器支持实时预览，切换起来比 Claude Code 还直观一些。

别小看这个更新。终端工具的使用体验，很大程度上取决于"信息密度能不能快速消化"。代码高亮和主题切换看起来是视觉优化，实际上直接影响你的工作效率------你不需要再逐行去"读"代码，扫一眼颜色就知道大概改了什么。

多智能体：一个人同时指挥一群 AI 干活

这个功能其实从 0.102.0 就开始有了，但之前一直没跟大家好好聊过。趁着 0.105.0 又做了一波升级，今天一次说清楚。

什么是多智能体？

简单说，就是你可以同时启动多个 AI，每个 AI 独立工作，互不干扰，最后把结果汇总给你。

以前用 Codex，你跟一个 AI 聊天，提一个需求，它做完了你再提下一个。串行的，一个一个来。

现在开了多智能体，你可以同时派出好几个 AI：一个写代码，一个跑测试，一个审查安全漏洞------三件事并行跑，最后汇总。

三个内置角色

Codex 预设了三种 Agent 角色，开箱即用：

default：通用型，处理日常编码任务，是默认主力
worker：执行型，专注写代码，效率优先
explorer：探索型，只读权限，负责快速扫描和分析代码库

你也可以自定义角色。比如搞一个专门做安全审查的 reviewer：

ini 复制代码

[agents.reviewer]
description = "专注代码安全性、正确性和测试覆盖率审查。"
model = "gpt-5.3-codex"
sandbox_mode = "read-only"

启用方式

在 ~/.codex/config.toml 里加一行：

ini 复制代码

[features]
multi_agent = true

或者更快的方式------在 Codex CLI 里直接输入 /experimental 切换开关。

0.105.0 的升级：从"能用"到"好用"

之前的多智能体虽然能跑起来，但用着还是有些糙。0.105.0 做了几个关键改进：

CSV 批量派任务：新增了 spawn_agents_on_csv 功能。你可以准备一个 CSV 文件，每一行是一个任务，Codex 会自动给每个任务分配一个 Agent，批量并行执行。还内置了进度条和预计完成时间（ETA）。

举个例子：你有 50 个文件需要统一重构命名规范，以前你得一个个提需求。现在把文件列表扔进 CSV，Codex 自动开 50 个 Agent 同时干。

Agent 昵称：每个子 Agent 现在可以起昵称了。当你同时跑七八个 Agent 的时候，"重构-Auth 模块"比"Agent-7"好认多了。

子线程审批可见：以前子 Agent 需要你审批权限的时候，提示信息藏得挺深。现在审批请求会直接浮上来，你一眼就能看到哪个 Agent 在等你"批条子"。

这些改进单个看都不大，但加在一起，体验提升很明显。

和 Claude Code Sub Agent 简单对比

还记得之前那篇《Claude Code Sub Agent 完全指南》吗？当时我们详细聊过 Claude Code 怎么用 Sub Agent 搞"一个人指挥一群 AI"------你在 .claude/agents/ 目录下用 Markdown 文件定义不同角色（代码审查专家、调试高手、数据分析师），每个 Sub Agent 有独立的 200k token 上下文窗口，还能精确控制工具权限（比如审查代理只给只读权限）。Claude 会根据任务自动判断派哪个 Sub Agent 出马，你也可以手动指定。

Codex 的多智能体思路类似，但配置方式和侧重点不太一样：

维度	Claude Code Sub Agent	Codex Multi-Agent
配置方式	Markdown 文件（`.claude/agents/xxx.md`）	TOML 配置文件（`config.toml`）
内置角色	Explore、Plan、Generic 三个	default、worker、explorer 三个
自定义角色	✅ Markdown + YAML 定义	✅ TOML 定义
触发方式	Claude 自动判断 + 手动指定	用户手动派发
批量任务	手动指定并行启动多个	CSV 批量 + 进度条 + ETA
权限控制	精细到每个工具（Read/Write/Bash）	沙箱模式（read-only 等）
模型选择	每个 Agent 可用不同模型	每个 Agent 可用不同模型

两边的核心能力其实差不多------都支持并行、独立上下文、自定义角色。但细节上各有侧重：

Claude Code 的 Sub Agent 在权限精细度上更强，你可以给审查代理只开 Read 和 Grep，写代码的代理才给 Write 和 Edit，甚至能用 Hooks 做条件拦截（比如数据库代理只允许 SELECT）。而且 Claude 会自动判断什么时候该派 Sub Agent，你不用每次手动安排。

Codex 的多智能体在批量任务上更顺手，CSV 一扔、进度条一看、ETA 一算，50 个文件同时重构的场景它目前做得更丝滑。

一句话总结：终端 AI 编程助手都在从"一个 AI 帮你干"走向"一群 AI 帮你干"，只是路径不同。

几个实用的小改进

除了上面的重头戏，0.105.0 还有几个值得说的：

/copy 命令：一键复制 AI 最新的回复内容。以前你得手动选中、复制，现在直接 /copy，粘贴到哪儿都行。

/clear 和 Ctrl-L：清屏但不丢上下文。以前清屏会把整个对话清掉，现在只清界面显示，对话历史还在。如果你想彻底重新开始，/clear 也支持开启全新聊天。

审批控制更灵活：Codex 现在可以针对某个命令请求额外的沙箱权限，而不是要么全开要么全关。你还可以设置"自动拒绝"某些类型的审批请求，比如永远不允许删除操作，但允许读写文件。

Linux 沙箱修复：之前在 Linux 上跑 Codex，有些需要 /dev 设备节点的工具会报错（比如需要随机数的加密工具）。0.105.0 给沙箱加了一个最小化的 /dev 文件系统，这个问题终于解决了。

Codex 近期更新速览

0.105.0 不是孤立的一个版本。Codex CLI 最近几个版本的迭代节奏非常快，基本每周都有新东西：

0.100.0（2 月 12 日）：Agent Memory 上线------AI 可以跨会话记住关键信息，配合 /m_update、/m_drop 管理记忆
0.102.0（2 月 14 日）：多智能体正式上线，内置 default/worker/explorer 三个角色
0.103.0（2 月 17 日）：Git 提交自动带上 Codex 协作标注，代码归因更清晰
0.104.0（2 月 18 日）：WebSocket 代理支持，线程归档通知
0.105.0（2 月 25 日）：语音输入、代码高亮、多智能体升级（也就是今天这篇）

两周内五个版本，GitHub 上 61900 多颗星，380 多个贡献者------这个项目确实在认真卷。

怎么升级？

一行命令搞定：

css 复制代码

npm i -g @openai/codex

装好后运行 codex，用 ChatGPT 账号登录就能用。默认使用的模型是 GPT-5.3-Codex。

GitHub 仓库：github.com/openai/code...

官方文档：developers.openai.com/codex/cli

写在最后

从最早在手机上用讯飞/豆包语音输入法给 Claude Code 下指令，到后来在桌面端装 Typeless 提速，再到现在 Codex 原生支持语音输入------"用嘴写代码"这件事，正在从一个 hack 式的偏方，变成 AI 编程工具的标配功能。

0.105.0 不是一个翻天覆地的大版本，但它做的事情很对路：语音输入降低了表达需求的门槛，代码高亮提升了信息消化的效率，多智能体让批量任务不再是痛点。

这些都不是"从 0 到 1"的创新，而是"从能用到好用"的进化。

而这种进化，往往才是真正让你用了就回不去的东西。

尤其是语音输入------试过一次之后，我现在回到 Claude Code 反而有点不习惯了，下意识就想按空格说话。希望 Anthropic 也赶紧跟上吧。

🔗 往期推荐：

飞书社群开源知识库：my.feishu.cn/wiki/PFJswU...

今天的文章就到这里啦，如果觉得不错，可以点个赞、在看、转发，三连支持我～