美团开源LongCat-AudioDiT:首创波形潜空间建模,刷新音色克隆SOTA

梅尔频谱:该退休了

音频生成领域有个"老伙计"叫梅尔频谱,用了十几年。它的工作是把声波转换成频谱表示,方便模型处理。但问题是:转换过程有信息损耗,就像把高清照片压缩成缩略图,细节丢了

美团LongCat-团队说:既然有损耗,那就别转换了,直接在波形上建模。

这就是LongCat-AudioDiT的核心创新:彻底告别梅尔频谱,在波形潜空间直接生成

两段式架构:极简即极强

传统\TTS系统是"预测声学特征→神经声码器→波形",三个阶段串联,误差逐级累积。LongCat-AudioDiT砍掉中间环节,只剩两段:

Wav-VAE(波形变分自编码器) 把24kHz波形压缩2000倍,但通过非参数捷径分支保留原始时频结构。压缩不丢信息,重建不失真。

语义增强DiT(扩散Transformer) 融合UMT5文本编码器的原始词嵌入,补齐高层语义丢失的音素细节。生成的语音不仅像,而且听得懂。

音色漂移:终于治好了

流匹配TTS有个顽疾:生成过程中说话人的音色会"漂移",说着说着声音变了。

LongCat团队找到病因:训练-推理不匹配。训练时模型知道完整音频,推理时只能看到开头,后面的生成是"盲猜"。

解决方案是双重约束机制:在推理中强制重置提示区域隐变量,让模型"记住"说话人的音色特征。彻底根治漂移问题。

APG:比CFG更聪明的引导方式

传统无分类器引导(CFG)会放大引导信号,但也会引入噪声,导致频谱"过饱和"------听起来像"机器人说话"。

自适应投影引导(APG)的做法是:只筛选有益的引导分量,抑制导致劣化的信号。结果是在不牺牲音质的前提下,显著提升自然度。

0.818相似度:SOTA新标杆

Seed基准测试是语音克隆的"奥林匹克"。LongCat-AudioDiT交出的成绩单:

  • Seed-ZH测试集:相似度0.818
  • Seed-Hard难句测试集:相似度0.797
  • 英文WER:1.50%
  • 中文难句CER:6.04%

全部超越Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名模型。

更惊人的是:LongCat仅通过ASR转写预训练数据单阶段训练,就打败了多阶段训练的对手。极简架构,极致性能

开源:让行业一起进化

美团没有把技术锁在保险柜,而是选择全开放:

这是中国企业在AI开源领域的又一贡献。端到端架构成为新范式,梅尔频谱成为历史,整个行业一起进化。

文章来源:AITOP100,原文地址:https://www.aitop100.cn/infomation/details/33558.html

相关推荐
小雨下雨的雨15 小时前
井字棋AI机器人实现详解 - Minimax算法实战-鸿蒙PC Electron框架完成
前端·人工智能·算法·华为·electron·鸿蒙
我没胡说八道18 小时前
高校论文AI检测优化工具对比研究与实测分析(2026)
人工智能·深度学习·机器学习·计算机视觉·aigc·论文
秦亚伟18 小时前
AI浪潮重塑融资租赁行业新格局
人工智能
love530love18 小时前
LiveTalking 数字人项目 Windows 部署完全指南(EPGF 架构)
人工智能·windows·python·架构·livetalking·epgf
元启数宇18 小时前
喷淋AI布点实战:8小时人工布点→20分钟自动出图
人工智能
哈哈,柳暗花明18 小时前
人工智能专业术语详解(H)
人工智能·专业术语
圣殿骑士-Khtangc18 小时前
AI 编程工具 2026 实战横评:Cursor 3 vs Claude Code vs Copilot,开发者选型完全指南
人工智能·copilot
云器科技18 小时前
云器Lakehouse 2026年5月版本发布:拥抱 AI Agent,重塑数据智能开发新范式
人工智能
小鹰-上海鹰谷-电子实验记录本18 小时前
第六届党建引领科创生态座谈会 | 邓光辉博士出席分享AI赋能创新药科研新范式
人工智能·ai·电子实验记录本·药企合规
极客老王说Agent18 小时前
2026电信IDC机房巡检深度报告:人工巡检频次和深度够吗?实在Agent重塑智慧运维新范式
人工智能·ai·chatgpt