美团开源LongCat-Audio-Codec，高效语音编解码器助力实时交互落地

语音大语言模型（Speech LLM）想落地，绕不开一个死结：既要快速理解语音里的语义，又要说出自然的音色，还得实时响应。比如智能音箱 "听不懂" 语音，车载助手 "说" 得像机器人，实时翻译延迟卡半秒 ------深究根源，全在 "语音 Token 化"：作为拆分语音为 Speech LLM "离散单元" 的关键步骤，传统方案始终没平衡好 ------ 要么缺语义、要么丢声学、要么延迟高，刚好卡了 Speech LLM 落地的 "死结"。

针对 Speech LLM 落地中的音频处理难题，美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。它提供了一套一站式的 Token 生成器（Tokenizer）与 Token 还原器（DeTokenizer）工具链，其核心功能是将原始音频信号映射为语义与声学并行的 Token 序列，实现高效离散化，再通过解码模块重构高质量音频，为 Speech LLM 提供从信号输入到输出的全链路音频处理支持。通过创新的架构设计与训练策略，LongCat-Audio-Codec 在语义建模、声学重建、流式合成三大维度实现突破。

一、技术亮点

LongCat-Audio-Codec 的核心竞争力源于三大创新设计。

设计一：语义 - 声学双 Token 并行提取机制：兼顾理解与生成

为解决语义空间干扰声学空间导致的重构质量不佳的问题，LongCat-Audio-Codec 采用 "级联训练 - 并行推理" 的创新设计：

语义 Token：首先基于双向 Transformer 架构，聚焦语音内容的核心信息，基于 CTC 微调后的 ASR 模型提取纯粹的语义信息，为 Speech LLM 的语义理解提供支撑；
声学 Token：随后基于已有语义信息，结合改进的量化技术，在大码本空间下补充韵律、音色等副语言特征的声学 Token，解决非语义信息覆盖不足的问题。

同时，该方案支持声学码本的动态配置，可以在保证语义能力一致的情况下，根据下游任务调整码本层数。如下游任务是少音色场景，则可以选择单个声学码本来减少 Speech LLM 的学习压力；如果下游任务是多音色场景，则可以选择全部声学码本来提供丰富的说话人支持。

设计二：低延迟流式解码器：兼顾实时与质量

低延时流式处理能力是 Speech LLM 实时交互场景（如车载语音助手、实时翻译）的核心需求，其关键指标为端到端延迟（End-to-End Latency）。传统解码架构没有专为流式场景设计，易导致实时交互延迟高（如实时翻译卡半秒），LongCat-Audio-Codec 通过低延迟流式解码器解决这一问题。其解码器采用帧级增量处理模式，通过控制对未来语音 Token 的依赖，将解码延迟控制在百毫秒级。该架构显著提升了 Speech LLM 的交互实时性，满足工业级实时响应标准。

设计三：超低比特率高保真与集成超分辨率设计：兼顾压缩效率与音质

为解决 "低比特率音质劣化"和"超分辨率需额外模型" 问题，LongCat-Audio-Codec 采用协同优化设计：

超低比特率：比特率是衡量音频压缩效率的核心指标，依托模型优化与三阶段训练机制，通过降低信息量，从而在保证 Speech LLM 能够从海量数据中学习到语音的本质同时，降低 Speech LLM 的训练难度，也为 Speech LLM 的规模化落地提供了支撑。
集成超分辨率：LongCat-Audio-Codec 将超分辨率思想嵌入解码器，通过神经网络对重建音频进行频域补全。该集成设计不仅进一步提高了核心内容的压缩率，更通过提升输出音频的采样率，增强了语音的自然度与细节表现力。

二、性能评估

1. 低比特率下的可懂性与音质优势

在测试中，LongCat-Audio-Codec 在低比特率区间（0.43-0.87kbps）关键指标优于同类方案：对比其他携带语义的编解码器，LongCat-Audio-Codec 在各比特率区间均表现最优。

0.85-2kbps 区间（4 个码本，0.87kbps）：词错误率（WER，越低表示语音可懂性越高）仅 1.48，语音质量感知评估（PESQ，越高表示主观音质越好）达 2.30，短时客观可懂性（STOI，越高表示语音信息保留越完整）达 0.921，说话人相似度（SECS）0.942，兼顾可懂性与音色一致性；
0.65-0.85kbps 区间（3 个码本，0.65kbps）：WER 1.70，STOI 0.900，优于同类低比特率方案；
<0.65kbps 区间（2 个码本，0.43kbps）：WER 2.10，STOI 0.839，在极端低比特率下仍保持高可懂性，适合资源受限场景。

2. 比特率与性能的灵活适配

当前架构支持在保证语义理解能力的情况下灵活调整码本数量（2-4 个），LongCat-Audio-Codec 可以实现比特率从 0.43kbps 到 0.87kbps 的渐进式优化，且指标同步提升：

WER 从 2.10 降至 1.48，STOI 从 0.839 升至 0.921，语音可懂度显著提高；
总基音误差（GPE）从 3.69 降至 1.65，PESQ 从 1.47 升至 2.30，说话人相似度从 0.862 升至 0.942，语音重构相似度进一步提高。

3. 多阶段训练策略适配多样化场景

LongCat-Audio-Codec 设计了多阶段的训练策略，来兼容压缩率和音质的需求。其中 Stage1 用于满足高压缩率下的重构需求，Stage2 用于满足高音质合成需求，Stage3 用于满足个性化定制需求：

经过 Stage 2 优化后，LongCat-Audio-Codec 在音质上表现突出，无参考音质指标 SIGMOS 3.35，NISQA 4.33，甚至超过 LibriTTS clean 数据集（SIGMOS 3.24、NISQA 4.09）录音水平：

经过 Stage 3 优化后，有限集说话人相似度（SIM）从 0.717 升至 0.938，证明在当前架构下，使用最低码率（0.43kbps）下也可满足说话人定制需求。

三、总结

作为工业级语音大模型（Speech LLM）的专用语音 Token 解决方案，LongCat-Audio-Codec 以三大核心创新打破了语音大模型落地的关键瓶颈：通过 "语义 - 声学双 Token 并行提取" 破解 "懂却说不清" 的平衡难题，以 "低延迟流式解码" 解决 "说得清却不实时" 的交互痛点，靠 "超低比特率高保真 + 集成超分辨率" 兼顾压缩效率与音质细节，真正让语音大模型既 "听懂" 语义，又能够"说清" 。

LongCat-Audio-Codec 的开源发布，给语音大模型领域带来三重关键价值：

其一，降低技术门槛 ------ 为缺乏专用语音处理模块的研究团队提供一站式 Token 生成器（Tokenizer）与 Token 还原器（DeTokenizer）工具链，缓解语音大模型领域架构碎片化、上手难度高的问题，开发者可基于开源代码快速开发自己的语音大模型；
其二，丰富应用场景 ------ 具备灵活码本、轻量化、低延迟解码方案，适用更多的应用场景；
其三，完善技术生态 ------ 与美团此前发布的 LongCat 系列模型形成协同，从语音Token处理到语音大模型全链路能力，为构建全栈式语音智能系统奠定基础。

作为开源的语音大模型专用语音编解码器，LongCat-Audio-Codec 的技术路线不仅为当前语音大模型落地提供了高效适配的解决方案，更给语音 - 语言跨模态研究提供了新的参考范式。未来，LongCat 团队还将在多语言语音处理、长音频建模等方向持续优化，期待为行业带来更多突破，也欢迎更多开发者关注与参与共建。

Github地址 ：github.com/meituan-lon...

| 关注「美团技术团队」微信公众号，在公众号菜单栏对话框回复【2024年货】、【2023年货】、【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容，敬请注明"内容转载自美团技术团队"。本文未经许可，不得进行商业性转载或者使用。任何商用行为，请发送邮件至 tech@meituan.com 申请授权。