美团开源LongCat-AudioDiT：首创波形潜空间建模，刷新音色克隆SOTA

音频生成领域有个"老伙计"叫梅尔频谱，用了十几年。它的工作是把声波转换成频谱表示，方便模型处理。但问题是：转换过程有信息损耗，就像把高清照片压缩成缩略图，细节丢了。

美团LongCat-团队说：既然有损耗，那就别转换了，直接在波形上建模。

这就是LongCat-AudioDiT的核心创新：彻底告别梅尔频谱，在波形潜空间直接生成。

传统\TTS系统是"预测声学特征→神经声码器→波形"，三个阶段串联，误差逐级累积。LongCat-AudioDiT砍掉中间环节，只剩两段：

Wav-VAE（波形变分自编码器） 把24kHz波形压缩2000倍，但通过非参数捷径分支保留原始时频结构。压缩不丢信息，重建不失真。

语义增强DiT（扩散Transformer） 融合UMT5文本编码器的原始词嵌入，补齐高层语义丢失的音素细节。生成的语音不仅像，而且听得懂。

流匹配TTS有个顽疾：生成过程中说话人的音色会"漂移"，说着说着声音变了。

LongCat团队找到病因：训练-推理不匹配。训练时模型知道完整音频，推理时只能看到开头，后面的生成是"盲猜"。

解决方案是双重约束机制：在推理中强制重置提示区域隐变量，让模型"记住"说话人的音色特征。彻底根治漂移问题。

传统无分类器引导（CFG）会放大引导信号，但也会引入噪声，导致频谱"过饱和"------听起来像"机器人说话"。

自适应投影引导（APG）的做法是：只筛选有益的引导分量，抑制导致劣化的信号。结果是在不牺牲音质的前提下，显著提升自然度。

Seed基准测试是语音克隆的"奥林匹克"。LongCat-AudioDiT交出的成绩单：

全部超越Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名模型。

更惊人的是：LongCat仅通过ASR转写预训练数据单阶段训练，就打败了多阶段训练的对手。极简架构，极致性能。

美团没有把技术锁在保险柜，而是选择全开放：

这是中国企业在AI开源领域的又一贡献。端到端架构成为新范式，梅尔频谱成为历史，整个行业一起进化。