美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA

梅尔频谱:该退休了

音频生成领域有个"老伙计"叫梅尔频谱,用了十几年。它的工作是把声波转换成频谱表示,方便模型处理。但问题是:转换过程有信息损耗,就像把高清照片压缩成缩略图,细节丢了

美团LongCat-团队说:既然有损耗,那就别转换了,直接在波形上建模。

这就是LongCat-AudioDiT的核心创新:彻底告别梅尔频谱,在波形潜空间直接生成

两段式架构:极简即极强

传统\TTS系统是"预测声学特征→神经声码器→波形",三个阶段串联,误差逐级累积。LongCat-AudioDiT砍掉中间环节,只剩两段:

Wav-VAE(波形变分自编码器) 把24kHz波形压缩2000倍,但通过非参数捷径分支保留原始时频结构。压缩不丢信息,重建不失真。

语义增强DiT(扩散Transformer) 融合UMT5文本编码器的原始词嵌入,补齐高层语义丢失的音素细节。生成的语音不仅像,而且听得懂。

音色漂移:终于治好了

流匹配TTS有个顽疾:生成过程中说话人的音色会"漂移",说着说着声音变了。

LongCat团队找到病因:训练-推理不匹配。训练时模型知道完整音频,推理时只能看到开头,后面的生成是"盲猜"。

解决方案是双重约束机制:在推理中强制重置提示区域隐变量,让模型"记住"说话人的音色特征。彻底根治漂移问题。

APG:比CFG更聪明的引导方式

传统无分类器引导(CFG)会放大引导信号,但也会引入噪声,导致频谱"过饱和"------听起来像"机器人说话"。

自适应投影引导(APG)的做法是:只筛选有益的引导分量,抑制导致劣化的信号。结果是在不牺牲音质的前提下,显著提升自然度。

0.818相似度:SOTA新标杆

Seed基准测试是语音克隆的"奥林匹克"。LongCat-AudioDiT交出的成绩单:

  • Seed-ZH测试集:相似度0.818
  • Seed-Hard难句测试集:相似度0.797
  • 英文WER:1.50%
  • 中文难句CER:6.04%

全部超越Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名模型。

更惊人的是:LongCat仅通过ASR转写预训练数据单阶段训练,就打败了多阶段训练的对手。极简架构,极致性能

开源:让行业一起进化

美团没有把技术锁在保险柜,而是选择全开放:

这是中国企业在AI开源领域的又一贡献。端到端架构成为新范式,梅尔频谱成为历史,整个行业一起进化。

文章来源:AITOP100,原文地址:https://www.aitop100.cn/infomation/details/33558.html

相关推荐
带刺的坐椅6 小时前
从 Claude Code 隐私争议,看 SolonCode 的设计选择
ai·llm·agent·claudecode·soloncode·codingplan
冬奇Lab8 小时前
Workflow 系列(03):状态管理——持久化、幂等性与版本绑定
人工智能·工作流引擎
冬奇Lab8 小时前
每日一个开源项目(第146篇):openpilot - 开源自动驾驶辅助系统,曾在 Consumer Reports 评测中超过特斯拉 Autopilot
人工智能·开源·自动驾驶
threerocks8 小时前
一用一个不吱声的视频解析 Skill,你值得拥有
aigc·ai编程
吴佳浩9 小时前
AI 工程师知识地图:模型格式、框架、部署工具一次讲明白
人工智能·aigc·ai编程
IT_陈寒10 小时前
Java的Date类又坑了我一次,改用时间戳真香
前端·人工智能·后端
码农胖大海10 小时前
AI额度不够用的解决方案
人工智能
lincats10 小时前
Claude Code项目越写越乱?这套清理流程能救你
ai·ai agent·claude code
后端小肥肠10 小时前
小红书虚拟商品怎么做?我先用 Skill 跑通了壁纸品类
人工智能·aigc·agent