OpenAI Codex 0.105.0:按住空格键,对着终端说话就能写代码

还记得我之前写过一篇《Vibe Easily Everywhere》吗?当时为了在地铁上用手机给 Claude Code 下指令,我专门装了语音输入法------因为在手机小屏幕上 Vibe 实在太痛苦了,语音输入成了"移动端 Vibe Coding"的灵魂。

那篇文章发出去之后,评论区好多人问:电脑上能不能也用语音?

说实话,能。我后来在桌面端用上了 Typeless,一个专门给开发者设计的语音输入工具。体验确实不错------说话的速度大概是打字的 3-4 倍,而且它能识别技术术语,说"帮我重构 getUserById 这个函数",出来的文字八九不离十。我连续用了几周,统计了一下,平均语速 158 词/分钟,比我打字快了将近一倍。

但还是有个别扭的地方:它毕竟是个外挂。你得先开 Typeless,再切到终端,按快捷键触发录音,说完了文字出现在输入框里,再按回车发送。步骤不多,但每次都要"跳出去再跳回来",总感觉不够丝滑。

然后昨天,OpenAI 的 Codex CLI 推了 0.105.0。

我一看更新日志,愣了------按住空格键,直接语音输入,松开自动发送。原生支持,不用装任何外挂。

就这一个功能,我觉得值得单独写一篇。


语音输入:从"社区呼声最高"到"终于来了"

先说说背景。Codex CLI 的 GitHub 仓库里,有一个编号 #3000 的 Issue,标题就叫"Voice dictation / microphone input"。这个 Issue 拿到了 71 个大拇指,17 条评论,是社区呼声最高的功能请求之一。

评论区里能看到大家的折腾史:有人在用 Superwhisper(一个 Mac 端的语音输入工具),觉得"识别效果不错,但只能 Mac 用";有人吐槽 Windows/WSL 用户被彻底晾在一边;还有人说"VSCode 里的语音输入只能在编辑器文件里用,Codex 面板里根本没法说话"。

0.105.0 一步到位,把这些问题全解决了。

开启方式也很简单,在 ~/.codex/config.toml 里加两行:

ini 复制代码
[features]
voice_transcription = true

保存后重启 Codex CLI 就行。

开启之后,操作方式简单到离谱:按住空格键 → 说话 → 松开 → 自动转文字发送给 AI

不需要装插件,不需要配第三方工具,不区分 Mac/Windows/Linux,Codex 原生支持。

我实际体验了一下午,说几个真实感受:

技术术语识别比预想的好。说"帮我检查一下 src/api/auth.ts 里的 validateToken 函数",路径和函数名基本都能准确识别。这一点比通用语音输入法强不少------毕竟 Codex 是专门给开发者做的,语音模型大概率针对编程场景做过优化。

说话比打字更容易"想清楚"。这是我没预料到的。打字的时候,你会下意识地简化表达,因为敲键盘有成本。但说话的时候,你更容易把完整的上下文描述出来------"这个函数现在的问题是,当用户没有传 token 的时候,它会直接 crash,而不是返回一个 401 错误"------这种长句子说出来很自然,但要打字就觉得太长了,往往会缩成"validateToken 没处理空 token"。

结果就是,语音输入的时候,AI 拿到的上下文更丰富,给出的回答也更准确。

但中英文混合场景还有点毛糙。如果你一句话里又有中文描述又有英文函数名,偶尔会出现识别断档。比如"帮我把 getUserList 的返回值改成 pagination 格式",有时候 getUserList 会被吞掉或者识别成别的东西。不影响大局,但期待后续版本优化。

场景确实有限制。安静的家里用、戴耳机用都很爽。但开放式办公室里对着屏幕说"帮我写一个删除用户的接口"......你可以想象一下同事的表情。


终端终于好看了:代码高亮 + 主题切换

如果你用过 Codex CLI 的老版本,可能对它的终端界面有一个吐槽:代码块看起来跟普通文本没什么区别,一眼扫过去分不清哪段是代码、哪段是解释。

0.105.0 终于解决了这个问题。

现在,Codex 的终端界面(TUI)支持语法高亮了------代码块、diff 对比都有颜色区分,一眼就能看出改了什么。

更贴心的是,它还加了一个 /theme 命令。输入之后会弹出一个主题选择器,你可以实时预览不同配色方案,挑一个顺眼的保存下来。浅色终端、深色终端都有对应的配色优化。

用过 Claude Code 的朋友可能会觉得眼熟------没错,Claude Code 早就有语法高亮和 /theme 主题切换了,配色方案也是深色浅色随时调。Codex 这次算是补上了这块短板,而且体验做得不错,主题选择器支持实时预览,切换起来比 Claude Code 还直观一些。

别小看这个更新。终端工具的使用体验,很大程度上取决于"信息密度能不能快速消化"。代码高亮和主题切换看起来是视觉优化,实际上直接影响你的工作效率------你不需要再逐行去"读"代码,扫一眼颜色就知道大概改了什么。


多智能体:一个人同时指挥一群 AI 干活

这个功能其实从 0.102.0 就开始有了,但之前一直没跟大家好好聊过。趁着 0.105.0 又做了一波升级,今天一次说清楚。

什么是多智能体?

简单说,就是你可以同时启动多个 AI,每个 AI 独立工作,互不干扰,最后把结果汇总给你。

以前用 Codex,你跟一个 AI 聊天,提一个需求,它做完了你再提下一个。串行的,一个一个来。

现在开了多智能体,你可以同时派出好几个 AI:一个写代码,一个跑测试,一个审查安全漏洞------三件事并行跑,最后汇总。

三个内置角色

Codex 预设了三种 Agent 角色,开箱即用:

  • default:通用型,处理日常编码任务,是默认主力
  • worker:执行型,专注写代码,效率优先
  • explorer:探索型,只读权限,负责快速扫描和分析代码库

你也可以自定义角色。比如搞一个专门做安全审查的 reviewer:

ini 复制代码
[agents.reviewer]
description = "专注代码安全性、正确性和测试覆盖率审查。"
model = "gpt-5.3-codex"
sandbox_mode = "read-only"

启用方式

在 ~/.codex/config.toml 里加一行:

ini 复制代码
[features]
multi_agent = true

或者更快的方式------在 Codex CLI 里直接输入 /experimental 切换开关。

0.105.0 的升级:从"能用"到"好用"

之前的多智能体虽然能跑起来,但用着还是有些糙。0.105.0 做了几个关键改进:

CSV 批量派任务:新增了 spawn_agents_on_csv 功能。你可以准备一个 CSV 文件,每一行是一个任务,Codex 会自动给每个任务分配一个 Agent,批量并行执行。还内置了进度条和预计完成时间(ETA)。

举个例子:你有 50 个文件需要统一重构命名规范,以前你得一个个提需求。现在把文件列表扔进 CSV,Codex 自动开 50 个 Agent 同时干。

Agent 昵称:每个子 Agent 现在可以起昵称了。当你同时跑七八个 Agent 的时候,"重构-Auth 模块"比"Agent-7"好认多了。

子线程审批可见:以前子 Agent 需要你审批权限的时候,提示信息藏得挺深。现在审批请求会直接浮上来,你一眼就能看到哪个 Agent 在等你"批条子"。

这些改进单个看都不大,但加在一起,体验提升很明显。

和 Claude Code Sub Agent 简单对比

还记得之前那篇《Claude Code Sub Agent 完全指南》吗?当时我们详细聊过 Claude Code 怎么用 Sub Agent 搞"一个人指挥一群 AI"------你在 .claude/agents/ 目录下用 Markdown 文件定义不同角色(代码审查专家、调试高手、数据分析师),每个 Sub Agent 有独立的 200k token 上下文窗口,还能精确控制工具权限(比如审查代理只给只读权限)。Claude 会根据任务自动判断派哪个 Sub Agent 出马,你也可以手动指定。

Codex 的多智能体思路类似,但配置方式和侧重点不太一样:

维度 Claude Code Sub Agent Codex Multi-Agent
配置方式 Markdown 文件(.claude/agents/xxx.md TOML 配置文件(config.toml
内置角色 Explore、Plan、Generic 三个 default、worker、explorer 三个
自定义角色 ✅ Markdown + YAML 定义 ✅ TOML 定义
触发方式 Claude 自动判断 + 手动指定 用户手动派发
批量任务 手动指定并行启动多个 CSV 批量 + 进度条 + ETA
权限控制 精细到每个工具(Read/Write/Bash) 沙箱模式(read-only 等)
模型选择 每个 Agent 可用不同模型 每个 Agent 可用不同模型

两边的核心能力其实差不多------都支持并行、独立上下文、自定义角色。但细节上各有侧重:

Claude Code 的 Sub Agent 在权限精细度上更强,你可以给审查代理只开 Read 和 Grep,写代码的代理才给 Write 和 Edit,甚至能用 Hooks 做条件拦截(比如数据库代理只允许 SELECT)。而且 Claude 会自动判断什么时候该派 Sub Agent,你不用每次手动安排。

Codex 的多智能体在批量任务上更顺手,CSV 一扔、进度条一看、ETA 一算,50 个文件同时重构的场景它目前做得更丝滑。

一句话总结:终端 AI 编程助手都在从"一个 AI 帮你干"走向"一群 AI 帮你干",只是路径不同。


几个实用的小改进

除了上面的重头戏,0.105.0 还有几个值得说的:

/copy 命令:一键复制 AI 最新的回复内容。以前你得手动选中、复制,现在直接 /copy,粘贴到哪儿都行。

/clear 和 Ctrl-L:清屏但不丢上下文。以前清屏会把整个对话清掉,现在只清界面显示,对话历史还在。如果你想彻底重新开始,/clear 也支持开启全新聊天。

审批控制更灵活:Codex 现在可以针对某个命令请求额外的沙箱权限,而不是要么全开要么全关。你还可以设置"自动拒绝"某些类型的审批请求,比如永远不允许删除操作,但允许读写文件。

Linux 沙箱修复:之前在 Linux 上跑 Codex,有些需要 /dev 设备节点的工具会报错(比如需要随机数的加密工具)。0.105.0 给沙箱加了一个最小化的 /dev 文件系统,这个问题终于解决了。


Codex 近期更新速览

0.105.0 不是孤立的一个版本。Codex CLI 最近几个版本的迭代节奏非常快,基本每周都有新东西:

  • 0.100.0(2 月 12 日):Agent Memory 上线------AI 可以跨会话记住关键信息,配合 /m_update、/m_drop 管理记忆
  • 0.102.0(2 月 14 日):多智能体正式上线,内置 default/worker/explorer 三个角色
  • 0.103.0(2 月 17 日):Git 提交自动带上 Codex 协作标注,代码归因更清晰
  • 0.104.0(2 月 18 日):WebSocket 代理支持,线程归档通知
  • 0.105.0(2 月 25 日):语音输入、代码高亮、多智能体升级(也就是今天这篇)

两周内五个版本,GitHub 上 61900 多颗星,380 多个贡献者------这个项目确实在认真卷。


怎么升级?

一行命令搞定:

css 复制代码
npm i -g @openai/codex

装好后运行 codex,用 ChatGPT 账号登录就能用。默认使用的模型是 GPT-5.3-Codex。

GitHub 仓库:github.com/openai/code...

官方文档:developers.openai.com/codex/cli


写在最后

从最早在手机上用讯飞/豆包语音输入法给 Claude Code 下指令,到后来在桌面端装 Typeless 提速,再到现在 Codex 原生支持语音输入------"用嘴写代码"这件事,正在从一个 hack 式的偏方,变成 AI 编程工具的标配功能。

0.105.0 不是一个翻天覆地的大版本,但它做的事情很对路:语音输入降低了表达需求的门槛,代码高亮提升了信息消化的效率,多智能体让批量任务不再是痛点。

这些都不是"从 0 到 1"的创新,而是"从能用到好用"的进化。

而这种进化,往往才是真正让你用了就回不去的东西。

尤其是语音输入------试过一次之后,我现在回到 Claude Code 反而有点不习惯了,下意识就想按空格说话。希望 Anthropic 也赶紧跟上吧。


🔗 往期推荐:

飞书社群开源知识库:my.feishu.cn/wiki/PFJswU...

今天的文章就到这里啦,如果觉得不错,可以点个赞、在看、转发,三连支持我~

相关推荐
机 _ 长1 小时前
Transformer架构深度解析:从翻译模型到大语言模型的核心技术
人工智能·深度学习
数字生命卡兹克1 小时前
Claude Code更新,你终于可以随时随地在手机上Vibe Coding了。
人工智能·产品
用户4815930195911 小时前
01-Transformer基础入门-从词嵌入到注意力机制
人工智能
小碗细面1 小时前
告别996!Claude Code 6个实用工作流程
前端·人工智能·ai编程
方安乐1 小时前
杂记:AI全产业链
人工智能
__不想说话__1 小时前
前端开发者的 AI 时代生存指南:大模型如何重塑岗位要求与技能
前端·人工智能·面试
xybDIY2 小时前
Kiro Workshop - 使用 AI 代理聊天机器人构建电子商务网站
人工智能·机器人
Scabbards_2 小时前
TRE: 鼓励在Trust Rigon 进行探索
人工智能
jiang_changsheng2 小时前
ms-swift 训练、微调、推理、评估、量化与部署的统一框架。配合comfyui使用
人工智能·python