X-ASR 把本地语音输入的底座拼出来了

如果你把 X-ASR 只当成识别模型看，可能会错过最有意思的地方。

我刚开始翻它 README 的时候，第一反应也很普通。中英文 ASR，Zipformer，icefall，k2，sherpa-onnx，流式，低延迟，开源模型。

这些词当然重要，但说实话，在今天已经不算特别稀奇了。

真正让我停下来的，是它往后多走了一步。

它不是只扔一个模型文件出来，然后告诉你「自己去跑吧」。它把模型、流式 chunk、sherpa-onnx 部署、WebSocket 服务端、本地实时 demo、VAD 断句，甚至一个桌面语音输入应用，都放在了同一个项目叙事里。

这就有点不一样了。

因为本地语音输入这件事，难点从来不只是「识别出文字」。更麻烦的是，你要边说边出字，要知道一句话什么时候结束，要能把 final 结果交给输入框，还要尽量让音频不离开本机。

X-ASR 真正值得看的地方，我觉得就在这里。

它开始把这些散落的零件，拼成一个能让人想象产品形态的底座。

先说模型本身。

按照 README 的说法，当前发布的是 X-ASR-zh-en，也就是中英文流式 ASR 模型。它基于大约 100 万小时开源及收集语音数据训练，采用 Zipformer 架构，是一个离线和流式一体化的 transducer ASR 模型。

这几个词听起来有点硬，我尽量翻成人话。

离线识别，就是你把一整段音频丢进去，模型慢慢看完整段再输出。流式识别，就是你一边说，它一边吃音频片段，一边吐 partial 结果。前者通常更稳，后者更接近实时语音输入。

X-ASR 这里比较实用的一点是，它没有只给一种流式延迟配置。README 里列了 160 ms、480 ms、960 ms 和 1920 ms 四种 chunk size。

小 chunk 更偏低延迟，大 chunk 通常会更稳一点。这个取舍很现实，因为语音产品里没有一个配置能通吃所有场景。你做实时字幕，可能更在乎「快一点出来」。你做会议转写，可能更在乎「别太容易飘」。这时候有多个 chunk 选择，就比只给一个默认模型要舒服。

当然，这里也要先校准预期。README 里说它支持标点和大小写，也支持离线和真流式解码，但这不等于你下载之后就能直接替代所有成熟语音输入法。ASR 的真实体验很吃麦克风、噪声、口音、领域词、部署环境和后处理。它更像是一个可以搭系统的开源底座，而不是一个人人打开就能无脑替换现有输入法的消费级产品。

这个边界讲清楚，反而更让我觉得它靠谱。

再看指标。

README 里把当前版本的公开 benchmark 结果摊出来了，而且说明所有结果使用 greedy search。英文结果用 WER，中文结果用 CER，数值越低越好。

在公开基准模型对比表里，X-ASR-zh-en offline 标注参数量是 0.16B，五个评测列的 AVG 是 6.036。这个表里 Qwen3-ASR 1.7B 和 0.6B 排在前面，X-ASR-zh-en offline 排第三，SenseVoice-small 和 VibeVoice-ASR 排在后面。

这个数据怎么理解呢？

我不会把它写成「吊打谁」。一方面，这是 README 表格里的公开口径，不是我本地重新跑了一遍完整评测。另一方面，不同模型的训练数据、解码设置、适用场景、参数量和部署约束都不一样，直接一句话定胜负其实挺粗暴。

但它至少说明一件事。

在这个 README 给出的评测口径里，一个 0.16B 的中英文 ASR 模型，能在公开 benchmark 上做到一个相当能看的位置，同时还把流式部署文件一起放出来。这对开发者来说，是有价值的。

因为很多时候我们不是在找榜单第一，而是在找一个「能部署、能改、能接进自己的流程」的模型。

这也是我看 X-ASR 的重点。

顺着这个思路往下看，部署部分就变得更关键了。

X-ASR 的 deployment 文档不是那种只放一个模型下载链接的文档。它直接给了 sherpa-onnx 的 ONNX 模型目录、WebSocket streaming ASR server、WAV 文件客户端，还有本地 live demo。

服务端这块的逻辑很清楚。你选择一个模型目录，比如 160 ms chunk，把 tokens、encoder、decoder、joiner 四个文件都指向同一个目录，然后通过 sherpa-onnx 启动 OnlineRecognizer。客户端通过 WebSocket 发 16 kHz 单声道 int16 PCM 音频块，服务端返回 partial 和 final 识别结果。

这对什么人有用？

如果你只是偶尔转一个录音文件，可能完全没必要折腾这些。现成工具足够多。

但如果你在做实时字幕、语音输入、会议系统、离线端侧原型，或者想把 ASR 接进自己的应用里，这种 WebSocket server/client 示例就很重要。它不是告诉你「模型很强」，而是告诉你「你可以怎么把它接起来」。

这其实是开源项目里很容易被低估的一部分。

模型能力当然重要，但部署路径越清晰，开发者从「看到了」到「跑起来」的距离就越短。

不过，流式 ASR 还有一个很现实的问题。

它能边听边出 partial，不代表它知道你什么时候说完一句话。

你可以把它想象成一个很努力的速记员。你还在说，它就不断改稿。但你停顿的时候，它不一定天然知道「这一句该收了」。如果没有端点检测，实时语音输入就会很尴尬，要么 final 出不来，要么切得乱，要么长句越积越难处理。

X-ASR 的本地实时 demo，重点就补在这里。

它把麦克风或者 wav 输入，接到 VAD 切句，再接 X-ASR 流式 Zipformer，最后打印 partial 和 final。README 里写得很直白，流式 ASR 本身不做端点检测，不知道一句话在哪里结束，所以 demo 前面接了一层 VAD 门控和句子端点。

这个设计我很喜欢。

不是因为它听起来多高级，而是因为它抓住了语音输入真正容易卡住的地方。

一个能用的本地语音输入，不只是「我识别准确」。它还得做到，句首别被吃掉，长句不要刷屏，停顿之后能定稿，连续多句不会卡死。

demo 里提到的 preroll，就是为了把 VAD 起音延迟吃掉的句首补回来。tail-pad，是为了 finalize 的时候补尾部静音，避免尾字被吃掉。它还提供了 FireRedVAD、silero、energy 三种 VAD 后端，默认 FireRedVAD，缺权重时可以自动降级到 silero。

这些细节看着不性感，但做过实时语音的人应该懂。

产品体验很多时候就死在这些小地方。

官方 demo 最值得看的，不是界面多漂亮，而是它展示了一种交互形态。

用户说话，partial 原地刷新，光标跟着最新文字往右移动。一停顿，当前句子被定稿成 final。README 里甚至给了一个中英混说的例子，中文和 streaming demo、smooth、real-time 这些英文词混在一起，partial 会逐步刷新，最后 finalize。

说真的，我看到这里的时候，脑子里第一反应不是「这个 ASR 模型不错」。

而是「这不就是本地语音输入法的半成品吗？」

当然，我这里说的是产品想象，不是说它已经是一个完整输入法。README 也写得很克制，当前 demo 默认把 final 结果打印在终端，进一步扩展时，可以把 final-text 回调替换成向编辑器或当前输入框注入文本。

也就是说，最后那一步还要你自己接。

但这一步想象空间非常大。写代码的时候按住热键讲一句需求，final 文本直接落到光标处。写文章的时候不把音频传到云端，只在本机完成听写。做内部工具的时候，把语音输入接到自己的工作流里。

尤其是对隐私敏感的场景，本地离线这四个字就很值钱。

更有意思的是，项目里还同步了 Vibe XASR 这个桌面应用。

它的 README 写得很直接，官方桌面应用，按住热键说话，文字直接落到光标处，100% 本地、离线，数据不出设备。

功能上有三种听写模式，一次性插入、逐字流式、OnCall 持续候机。支持全局热键，中英文自由说，实时上屏。还有便签、历史记录、多语言界面。

这一步对我来说挺关键。

因为它把 X-ASR 从「模型发布」往「真实入口」又推了一格。很多模型项目止步在 benchmark 和 demo，但语音输入要变成日常工具，必须有一个人能真的按下去、说出来、落到光标处的界面。

当然，边界也很明确。Vibe XASR 的 README 里写了，macOS 版需要 macOS 15 以上。项目目录里的源码不包含预编译原生依赖和 VAD 模型，需要脚本获取或编译，ASR 模型也要从 Hugging Face 获取。也就是说，如果你是普通用户，最好走官方 Release 安装包。如果你是开发者，才更适合自己从源码折腾。

这不是缺点开大会。

这是使用前必须知道的现实。

我有时候觉得，现在很多 AI 项目最容易让人误判的地方，就是大家只盯着一个瞬间效果。

模型识别一句话很准，大家说牛。

demo 里实时出字很快，大家说爽。

但真正要进入工作流，你会发现问题突然变得琐碎。怎么收句，怎么回补，怎么处理长句，怎么部署，怎么连输入框，怎么让用户相信音频没有被传出去。

这些问题不一定适合做爆款标题，但它们决定了一个项目能不能被真正用起来。

X-ASR 让我觉得值得写，就是因为它没有只停在「我有一个 ASR 模型」。它开始把后面这些脏活也摆出来了。

它现在还不是一个终局答案。

技术报告还没发，训练方案、评测协议、部署细节和消融分析都还要等后续补齐。当前模型主要是中英文，后面才计划泰语、印尼语、越南语。真实使用里，噪声、口音、专有名词、CPU 性能、模型体积，都会影响体验。deployment 文档也写得很清楚，每个模型目录大约 586 MB，完整 models 目录大约 2.4 GB，本地部署不是一个小按钮就结束的事。

但它给了一个非常清晰的方向。

未来的语音输入，不一定都要变成云端 API 的调用。对于很多开发者、本地工具、隐私敏感场景来说，一条纯本地、可部署、可改造的语音输入链路，本身就是很有价值的基础设施。

X-ASR 现在做的，就是把这条链路的关键节点先拼出来。

所以我对它的判断很简单。

如果你只是想找一个开箱即用的普通转写工具，它不一定是最省心的选择。

如果你想研究中英文流式 ASR，想搭一个本地实时听写原型，想把语音输入接进自己的编辑器、应用或者工作流里，X-ASR 值得花时间看一眼。

它真正让我兴奋的，不是「又一个模型发布了」。

而是我们离一个更自由的本地语音输入底座，又近了一点。

永远对世界保持好奇。