美团开源LongCat-Audio-Codec,高效语音编解码器助力实时交互落地

语音大语言模型(Speech LLM)想落地,绕不开一个死结:既要快速理解语音里的语义,又要说出自然的音色,还得实时响应。比如智能音箱 "听不懂" 语音,车载助手 "说" 得像机器人,实时翻译延迟卡半秒 ------深究根源,全在 "语音 Token 化":作为拆分语音为 Speech LLM "离散单元" 的关键步骤,传统方案始终没平衡好 ------ 要么缺语义、要么丢声学、要么延迟高,刚好卡了 Speech LLM 落地的 "死结"。

针对 Speech LLM 落地中的音频处理难题,美团 LongCat 团队正式开源专用语音编解码方案 LongCat-Audio-Codec。它提供了一套一站式的 Token 生成器(Tokenizer)与 Token 还原器(DeTokenizer)工具链,其核心功能是将原始音频信号映射为语义与声学并行的 Token 序列,实现高效离散化,再通过解码模块重构高质量音频,为 Speech LLM 提供从信号输入到输出的全链路音频处理支持。通过创新的架构设计与训练策略,LongCat-Audio-Codec 在语义建模、声学重建、流式合成三大维度实现突破。

一、技术亮点

LongCat-Audio-Codec 的核心竞争力源于三大创新设计。

设计一: 语义 - 声学双 Token 并行提取机制:兼顾理解与生成

为解决语义空间干扰声学空间导致的重构质量不佳的问题,LongCat-Audio-Codec 采用 "级联训练 - 并行推理" 的创新设计:

  • 语义 Token:首先基于双向 Transformer 架构,聚焦语音内容的核心信息,基于 CTC 微调后的 ASR 模型提取纯粹的语义信息,为 Speech LLM 的语义理解提供支撑;
  • 声学 Token:随后基于已有语义信息,结合改进的量化技术,在大码本空间下补充韵律、音色等副语言特征的声学 Token,解决非语义信息覆盖不足的问题。

同时,该方案支持声学码本的动态配置,可以在保证语义能力一致的情况下,根据下游任务调整码本层数。如下游任务是少音色场景,则可以选择单个声学码本来减少 Speech LLM 的学习压力;如果下游任务是多音色场景,则可以选择全部声学码本来提供丰富的说话人支持。

设计二: 低延迟流式解码器:兼顾实时与质量

低延时流式处理能力是 Speech LLM 实时交互场景(如车载语音助手、实时翻译)的核心需求,其关键指标为端到端延迟(End-to-End Latency)。传统解码架构没有专为流式场景设计,易导致实时交互延迟高(如实时翻译卡半秒),LongCat-Audio-Codec 通过低延迟流式解码器解决这一问题。其解码器采用帧级增量处理模式,通过控制对未来语音 Token 的依赖,将解码延迟控制在百毫秒级。该架构显著提升了 Speech LLM 的交互实时性,满足工业级实时响应标准。

设计三:超低比特率高保真与集成超分辨率设计:兼顾压缩效率与音质

为解决 "低比特率音质劣化"和"超分辨率需额外模型" 问题,LongCat-Audio-Codec 采用协同优化设计:

  • 超低比特率:比特率是衡量音频压缩效率的核心指标,依托模型优化与三阶段训练机制,通过降低信息量,从而在保证 Speech LLM 能够从海量数据中学习到语音的本质同时,降低 Speech LLM 的训练难度,也为 Speech LLM 的规模化落地提供了支撑。
  • 集成超分辨率:LongCat-Audio-Codec 将超分辨率思想嵌入解码器,通过神经网络对重建音频进行频域补全。该集成设计不仅进一步提高了核心内容的压缩率,更通过提升输出音频的采样率,增强了语音的自然度与细节表现力。

二、性能评估

1. 低比特率下的可懂性与音质优势

在测试中,LongCat-Audio-Codec 在低比特率区间(0.43-0.87kbps)关键指标优于同类方案:对比其他携带语义的编解码器,LongCat-Audio-Codec 在各比特率区间均表现最优。

  • 0.85-2kbps 区间(4 个码本,0.87kbps):词错误率(WER,越低表示语音可懂性越高)仅 1.48,语音质量感知评估(PESQ,越高表示主观音质越好)达 2.30,短时客观可懂性(STOI,越高表示语音信息保留越完整)达 0.921,说话人相似度(SECS)0.942,兼顾可懂性与音色一致性;
  • 0.65-0.85kbps 区间(3 个码本,0.65kbps):WER 1.70,STOI 0.900,优于同类低比特率方案;
  • <0.65kbps 区间(2 个码本,0.43kbps):WER 2.10,STOI 0.839,在极端低比特率下仍保持高可懂性,适合资源受限场景。

2. 比特率与性能的灵活适配

当前架构支持在保证语义理解能力的情况下灵活调整码本数量(2-4 个),LongCat-Audio-Codec 可以实现比特率从 0.43kbps 到 0.87kbps 的渐进式优化,且指标同步提升:

  • WER 从 2.10 降至 1.48,STOI 从 0.839 升至 0.921,语音可懂度显著提高;
  • 总基音误差(GPE)从 3.69 降至 1.65,PESQ 从 1.47 升至 2.30,说话人相似度从 0.862 升至 0.942,语音重构相似度进一步提高。

3. 多阶段训练策略适配多样化场景

LongCat-Audio-Codec 设计了多阶段的训练策略,来兼容压缩率和音质的需求。其中 Stage1 用于满足高压缩率下的重构需求,Stage2 用于满足高音质合成需求,Stage3 用于满足个性化定制需求:

经过 Stage 2 优化后,LongCat-Audio-Codec 在音质上表现突出,无参考音质指标 SIGMOS 3.35,NISQA 4.33,甚至超过 LibriTTS clean 数据集(SIGMOS 3.24、NISQA 4.09)录音水平:

经过 Stage 3 优化后,有限集说话人相似度(SIM)从 0.717 升至 0.938,证明在当前架构下,使用最低码率(0.43kbps)下也可满足说话人定制需求。

三、总结

作为工业级语音大模型(Speech LLM)的专用语音 Token 解决方案,LongCat-Audio-Codec 以三大核心创新打破了语音大模型落地的关键瓶颈:通过 "语义 - 声学双 Token 并行提取" 破解 "懂却说不清" 的平衡难题,以 "低延迟流式解码" 解决 "说得清却不实时" 的交互痛点,靠 "超低比特率高保真 + 集成超分辨率" 兼顾压缩效率与音质细节,真正让语音大模型既 "听懂" 语义,又能够"说清" 。

LongCat-Audio-Codec 的开源发布,给语音大模型领域带来三重关键价值:

  • 其一,降低技术门槛 ------ 为缺乏专用语音处理模块的研究团队提供一站式 Token 生成器(Tokenizer)与 Token 还原器(DeTokenizer)工具链,缓解语音大模型领域架构碎片化、上手难度高的问题,开发者可基于开源代码快速开发自己的语音大模型;
  • 其二,丰富应用场景 ------ 具备灵活码本、轻量化、低延迟解码方案,适用更多的应用场景;
  • 其三,完善技术生态 ------ 与美团此前发布的 LongCat 系列模型形成协同,从语音Token处理到语音大模型全链路能力,为构建全栈式语音智能系统奠定基础。

作为开源的语音大模型专用语音编解码器,LongCat-Audio-Codec 的技术路线不仅为当前语音大模型落地提供了高效适配的解决方案,更给语音 - 语言跨模态研究提供了新的参考范式。未来,LongCat 团队还将在多语言语音处理、长音频建模等方向持续优化,期待为行业带来更多突破,也欢迎更多开发者关注与参与共建。

Github地址github.com/meituan-lon...

| 关注「美团技术团队」微信公众号,在公众号菜单栏对话框回复【2024年货】、【2023年货】、【2022年货】、【2021年货】、【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明"内容转载自美团技术团队"。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至 tech@meituan.com 申请授权。

相关推荐
程思扬2 小时前
开源 + 实时 + 无网络限制:Excalidraw 是流程图协作新选择
网络·人工智能·阿里云·ai·开源·流程图
聚合菌2 小时前
【数据启元计划】推荐有礼:最高领100元话费或热门视频会员年卡!
人工智能
松岛雾奈.2302 小时前
机器学习--KNN算法中的距离、范数、正则化
人工智能·算法·机器学习
程途拾光1582 小时前
用流程图优化工作流:快速识别冗余环节,提升效率
大数据·论文阅读·人工智能·流程图·论文笔记
Lab4AI大模型实验室2 小时前
【Github热门项目】DeepSeek-OCR项目上线即突破7k+星!突破10倍无损压缩,重新定义文本-视觉信息处理
人工智能·github·deepseek-ocr
Brduino脑机接口技术答疑2 小时前
支持向量机(SVM)在脑电情绪识别中的学术解析与研究进展
人工智能·算法·机器学习·支持向量机·数据分析
北京耐用通信2 小时前
从‘卡壳’到‘丝滑’:耐达讯自动化PROFIBUS光纤模块如何让RFID读写器实现‘零延迟’物流追踪?”
网络·人工智能·科技·物联网·网络协议·自动化
xier_ran3 小时前
深度学习:Mini-batch 大小选择与 SGD 和 GD
人工智能·算法·机器学习
CodeLiving3 小时前
MCP学习三——MCP相关概念
人工智能·mcp