IndexTTS2：用极致表现力颠覆听觉体验

前言

在语音合成技术不断演进的背景下，早期版本的IndexTTS虽然在多场景应用中展现出良好的表现，但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题，并进一步推动零样本语音合成在实际场景中的落地能力，B站语音团队对模型架构与训练策略进行了深度优化，推出了全新一代语音合成模型------IndexTTS2 。

相比于自回归（Autoregressive, AR）系统，非自回归（Non-Autoregressive, NAR）系统的一大优势在于生成时长可控，便于对语速、节奏进行精确编辑。而在 IndexTTS2 中，我们创新性地提出了一种通用于 AR 系统的"时间编码"机制，首次解决了传统 AR 模型难以精确控制语音时长的问题。这一设计让我们在保留 AR 架构在韵律自然性、风格迁移能力、多模态扩展性等方面优势的同时，也具备了合成定长语音的能力。该技术已率先应用于 B 站"原声视频翻译"功能，目前正在内测，部分用户已可体验。

在实际使用中，往往难以同时获得音色匹配且情感准确的参考音频。为此，IndexTTS2 引入了音色与情感解耦建模机制，处理支持单音频参考以外，额外支持分别指定音色参考与情感参考，实现更加灵活、细腻的语音合成控制。同时，模型还具备基于文本描述的情感控制能力，可通过自然语言描述、使用场景描述、上下文线索等进行精准调节合成语音的情绪色彩。

IndexTTS2 在灵活性与可控性之间实现了更优平衡，不仅支持高质量的零样本语音合成，还显著提升了语音在情感表达维度的真实感与表现力。其合成语音情绪自然饱满，贴近真人，广泛适用于 AI 配音、有声读物、动态漫、视频翻译、语音对话、播客创作等场景，是推动零样本 TTS 走向实用化的重要里程碑。

为进一步推动语音合成技术的开放创新与行业应用落地，我们已将 IndexTTS2 的相关研究成果整理为论文《IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech》，现已发布于 arXiv，欢迎查阅：👉 arxiv.org/abs/2506.21...

后续，我们也将全面开源 IndexTTS2 的推理代码与模型权重，诚邀关注项目进展，欢迎前往项目仓库点击 ⭐ 以获取最新开源信息：👉 github.com/index-tts/i...

未来，我们还将持续优化模型性能，开放更多资源，与开发者社区携手共建开放繁荣的技术生态。

概述

我们提出了 IndexTTS2 ，其整体框架如图1所示。首先，该模型引入了一种新颖、通用且兼容自回归架构的语音时长控制方法。该方法支持两种生成模式：一种允许用户显式指定生成的token数量，从而实现对语音时长的精确调控；另一种则无需手动设定token数，模型可基于自回归机制自由生成语音，同时忠实还原输入提示语中的韵律与节奏特征。

图1 IndexTTS2整体框架

此外，IndexTTS2 对情感表达与说话人身份进行了有效解耦，实现了音色与情感的独立控制。在零样本zero-shot模式下，模型能够高质量地复现输入参考语音中蕴含的情感特征。另外用户还可提供独立于音色提示的情感描述（甚至来自不同说话者），使得模型能够在重建目标音色的同时，准确传达指定的情感基调。

为了提升在高强度情感表达下的语音清晰度与稳定性，我们在模型中引入了GPT式潜在表征机制，显著增强了语音生成的鲁棒性。与此同时，为降低情感控制的使用门槛，我们通过对 Qwen3 进行微调，设计了一种基于自然语言描述的情感软指令机制。这一机制允许用户通过文本输入灵活引导生成语音的情感倾向，极大提升了交互体验与可控性。

在多个数据集上的实验结果表明，IndexTTS2 在词错误率、说话人相似度以及情感保真度等多个关键指标上均优于当前最先进的零样本语音合成模型，展现出其在实用性与表现力方面的显著优势。

方法

IndexTTS2 由三个核心模块组成：Text-to-Semantic（T2S）、Semantic-to-Mel（S2M）以及 BigVGANv2 [1] 声码器。首先，T2S 模块基于输入的源文本、风格提示、音色提示以及一个可选的目标语音token数，生成对应的语义 token 序列。然后，S2M 模块以语义 token 和音色提示作为输入，进一步预测出梅尔频谱图。最后，BigVGANv2 声码器将梅尔频谱图转换为高质量的语音波形，完成端到端的语音合成过程。

基于AR的T2S模块

图2 自回归Text-to-Semantic

如图2所示，我们将T2S任务表述为一个自回归语义token预测任务，遵循与传统大型语言模型（LLM）训练相同的方法，使用下一个token预测进行训练。构建的训练序列如下：

其中，c 是表示说话者相关属性或情感特征的全局条件，p 是用于时长控制的嵌入，Etext 是文本嵌入序列。Esem 是语义token嵌入序列，该序列由真实语音通过语义编码器获得。e＜BT＞和 e＜BA＞分别是在文本和语义token序列之前添加的特殊token嵌入。因此，训练目标是预测目标语义token序列。T2S模块的结构基本遵循IndexTTS [2]。与传统的自回归大型语言模型不同，我们引入了两个关键创新：时长控制和情感控制。

如何基于AR实现时长控制

在训练过程中，对于每一对（文本，语音），说话者（音色）提示是从同一说话者的另一个语音中随机选择的。输入文本经BPE被编码成一个token序列。这些token通过文本嵌入表映射到嵌入，生成：

其中 L 和 D 分别表示文本长度和嵌入维度。

我们获得语义嵌入序列：

其中 T 表示语义token序列的长度。此外，语义位置嵌入表 Wsem 用于生成语义token序列的位置嵌入

⬇️

其中：

并且 Lspeech 表示预定义语义token序列的最大长度。函数 h(l) 表示位置 l 的one-hot向量，在第 l 个元素处值为1，其他位置值为0。

为了控制时长，我们在训练序列中引入了一个特殊的嵌入 p 来调节输出语义token的数量。向量 p 通过将语义token序列

的长度 T 传递给一个嵌入表Wnum直接获得。

在AR模式下实现时长控制需要在 Wsem 和 Wnum 之间共享参数是一个关键点，即 Wsem＝Wnum 。

在实践中，我们发现使用两个不同的系数 r1和r2 对真实语音和说话者提示进行随机速度调整显著提高了时长控制的准确性。同时，为了支持时长控制模式和自由生成模式，在训练过程中 p 以30%的概率被设置为零向量。对于训练T2S模块，我们最小化语义编码的交叉熵：

其中yT表示"语义编码序列结束"token＜EA＞，而 q(yi) 表示后验概率。

如何实现情感嵌入

我们将一个情感控制模块整合到T2S架构中，使得在最少的情感训练数据下也能实现富有表现力的语音合成。我们的方法采用了一个两阶段的训练策略。

在第一阶段，我们仅使用基于Conformer的情感感知调节器(emo perceiver conditioner)对情感数据进行训练，该调节器从风格提示中提取情感嵌入。为了将特定于情感的信息与说话者依赖的属性（如口音、节奏）分离，我们引入了一个梯度反转层。在训练过程中，风格提示来源于真实语音；而在推理时，它可以被替换为来自不同说话者的情感参考音频。训练序列构建如下：

此外，我们还引入了一个辅助说话者识别损失：

其中 q(e) 表示情感嵌入 e 对应于真实语音说话者的后验概率，而 α 是损失系数。

在第二阶段，我们在大规模中性语音数据上微调模型，同时保持情感感知调节器固定不变。为了实现基于自然语言的情感控制，我们定义了七种标准情感，并建立了一个相应的情感嵌入数据库。用户以自然语言输入期望的情感倾向，这些信息通过我们微调的大规模语言模型（LLM）处理，以估计情感概率分布。目标情感向量是根据这些概率加权的标准向量得到的，并作为模型的输入。因此，我们的模型支持通过音频参考和自然语言输入两种方式进行情感控制。

S2M模块

图3 : 基于Flow Matching的Semantic-to-Mel

如图3所示，S2M模块采用了一种基于流匹配的非回归生成框架，这有助于高质量梅尔频谱图的重建。条件流匹配（CFM）被用来学习一个常微分方程（ODE），该模型驱动样本从简单的先验噪声分布演化到目标梅尔频谱图数据分布。这一过程包括对音色参考音频进行条件约束，并整合由T2S模块生成的语义编码。在这个阶段，为了应对在进行深度情感演绎时出现的模糊问题，采用了两种策略。一种策略是利用从BERT [3]模型中提取的文本表示在帧级别对齐后作为辅助输入。另一种方法是利用T2S的GPT潜在特征作为补充信息。在该模块中，给定一个音色参考语音 Utim 及其梅尔频谱图 Ytim ，我们的目标是重建同一说话者的目标梅尔频谱图，记为 Ytar 。

在训练阶段，对目标梅尔频谱图进行完整的噪声处理，这些梅尔频谱图作为源输入。T2S模块生成的语义token表示为 Qsem 。T2S模块中丰富的发音相关中间潜在表示记为 Hgpt 。为了增强模型的鲁棒性，我们采用多层感知器以50%的概率随机相加 Hqpt 和 Qsem ，作为最终增强的语义tokenQfin。这一策略使得生成的声学特征具有更准确的发音和语义流畅性。此外，说话者嵌入通过感知调节器提取，并与增强的语义token连接作为条件，以确保音色再现。最后，Qfin 作为输入条件传递给S2M模块。模型通过最小化预测梅尔频谱图 Ypred 与原始梅尔频谱图 Ytar 之间的L1损失进行训练：

其中 F 是梅尔频谱图中的总帧数，而 D 是梅尔频带的维度。

实验

实验设置

数据集

我们使用了55K数据训练模型，其中包括30K中文数据和25K英文数据。大部分数据来自Emilia数据集[4]，此外还包括一些有声读物和购买的数据。总共135小时的情感数据来自361位说话者，其中29小时来自ESD数据集[5]，其余来自商业购买。为了验证TTS系统的基线能力，我们在四个基准上评估了我们的模型：

(1) SeedTTS test-en[6]，该数据集包含来自Common Voice数据集的1,000个发音；

(2) SeedTTS test-zh[6]，2,000个发音来自DiDiSpeech [7]；

(3) LibriSpeech-test-clean [8]，从LibriSpeech语料库中随机选取的2,620个发音；

(4) AISHELL-1 [9]，从AISHELL-1数据集中随机抽取的1,000个发音。

为了更好地评估情感建模能力，我们招募了12位说话者（5名男性和7名女性）来录制一个情感测试集。每位说话者为7种情感类别中的每一种录制了3句话。

评估指标

客观上，语音可理解性通过词错误率（WER）进行评估，其中中文内容使用FunASR [10]，英文内容使用Whisper [11]。说话者相似度（SS）是通过计算FunASR预训练说话者识别模型中说话者嵌入之间的余弦相似度来计算的，而情感相似度（ES）则使用开源emotion2vec [12]模型的情感表示进行计算。主观评估通过多维平均意见得分（MOS）框架进行，其中相似度MOS（SMOS）、韵律MOS（PMOS）、质量MOS（QMOS）和情感MOS（EMOS）分别评估说话者相似度、韵律、音频质量和情感保真度，每个评分范围为1-5。

基准

我们将我们的模型与最先进的零样本TTS系统进行了比较，包括MaskGCT [13]、F5-TTS [14]、CosyVocie2 [15]、SparkTTS [16]和原始IndexTTS模型[2]。

实验结果

基本能力比较

我们使用广泛采用的测试集 LibriSpeech-test-clean、SeedTTS test-zh、SeedTTS test-en和AIShell-1 test对我们的 IndexTTS2 模型进行了评估。我们将结果与四个代表性模型进行了比较，包括 MaskGCT、F5-TTS、CosyVoice2、SparkTTS和原始的 IndexTTS模型。如表1所示，IndexTTS2 在除AIShell-1之外的所有测试集上都达到了最先进的（SOTA）客观评估性能。对于AIShell-1测试集，IndexTTS2 在SS上仅比真实值低0.004，在WER上仅比IndexTTS低0.038%。主观上，IndexTTS2在所有测试集上都达到了SOTA性能，除了SeedTTS test-en。对于SeedTTS test-en，IndexTTS 表现最佳，而IndexTTS2表现良好，其SMOS、PMOS和QMOS分别比IndexTTS低0.25、0.12 和 0.19。这展示了它在具有挑战性的合成场景中的鲁棒性。

表1 在公开测试集上的结果

情感表现比较

我们在上述构建的情感数据集上评估了模型表达情感的能力。如表2所示，在情感语音测试集中，IndexTTS2显著展示了卓越的情感表达能力，达到了0.887的情感相似度（ES）和4.22的情感MOS（EMOS）。这一表现显著超越了其他被评估的系统和SOTA模型，其特点是能够生动且自然地渲染情感。至关重要的是，这种情感表达能力的提升是在保持卓越文本准确性的同时实现的，这通过仅1.883%的词错误率（WER）得到了证明。由于我们在自己收集的测试集上进行了评估，因此存在一定的局限性，所以我们展示了demo并鼓励在项目开源后进行更丰富的测试。

表2 在情感测试集上的结果

时长控制的准确性

我们在 SeedTTS test-zh 和 SeedTTS test-en 测试集上进行了五组实验设置，以评估 IndexTTS2 在指定时长控制方面的准确性，这些设置包括原始真实语音的时长以及其0.75、0.875、1.125 和 1.25 倍的时长。从表 3 的结果可以看出，在指定真实语音原始时长的情况下，token数量误差率均低于 0.02%；在指定 0.875 倍与 1.125 倍原始时长的情况下，误差率也保持在 0.03% 以内。而对于较大的倍数 0.75 倍与 1.25 倍，误差率几乎不超过 0.02%，仅在 SeedTTS test-zh 上达到 0.067%。如此低的token误差率表明，IndexTTS2 生成的token数量与给定的时长token数量之间的差距几乎可以忽略不计。

表3 不同设置下对持续时长控制的token数错误率

消融实验

我们进行了两组消融实验，以更好地验证 IndexTTS2 中各个组件的贡献。

表4 消融实验结果

移除 GPT 潜在特征。 从表 4 的结果中可以看出，移除GPT潜在特征几乎导致所有数据集上的客观和主观指标都出现了一致性的下降。以 LibriSpeech test-clean 为例，SS 从 0.870 上升到 0.887，这一现象表明模型更加关注说话者信息。另一方面，WER 略微从 3.115% 上升到 3.334%，这表明模型准确保留语音内容的能力有所下降。主观MOS评分也略有下降，特别是QMOS评分（从4.29降至4.17）。可以看出，GPT潜在特征在语音清晰度和发音方面起着重要作用。

用MaskGCT的S2A模块（针对离散声学token）替换S2M模块（针对梅尔频谱图）。 在SeedTTS test-en上，SS从0.860显著下降到0.832，WER从1.521%增加到2.148%，这表明情感保真度和语音准确性都有所下降。同样，在AIShell-1测试集中，SS急剧下降至0.629，WER上升至5.067%，反映出合成质量有显著下降。实验数据表明，S2M极大地提高了合成语音的保真度和感知自然度。

结论

在本工作中，我们提出了IndexTTS2，这是一个零样本语音合成系统，通过创新的自回归架构和优化训练来增强时长建模、情感表达性和音素清晰度。IndexTTS2具有独特的时长控制功能，可以实现精确的时间控制，并具有一种机制来解耦情感特征和说话人特征，从而从参考音频中生成特定情感的语音。一个由大型语言模型（LLM）驱动的模块匹配基于语言的情感向量，确保自然表达。在零样本设置中，IndexTTS2能够生成具有可控时长和情感表现力的语音，推动了语音合成技术的边界，为动画配音和视频旁白等场景提供了先进的声音解决方案。

参考文献

1\] S. Lee, W. Ping, B. Ginsburg, B. Catanzaro, and S. Yoon, "Bigvgan: A universal neural vocoder with large-scale training," in The Eleventh International Conference on Learning Representations, ICLR 2023, Kigali, Rwanda, May 1-5, 2023, 2023. \[2\] W. Deng, S. Zhou, J. Shu, J. Wang, and L. Wang, "Indextts: An industrial-level controllable and efficient zero-shot text-to-speech system," arXiv preprint arXiv:2502.05512, 2025. \[3\] M. V. Koroteev, "Bert: a review of applications in natural language processing and understanding," arXiv preprint arXiv:2103.11943, 2021. \[4\] H. He, Z. Shang, C. Wang, X. Li, Y. Gu, H. Hua, L. Liu, C. Yang, J. Li, P. Shi et al., "Emilia: An extensive, multilingual, and diverse speech dataset for large-scale speech generation," in 2024 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2024, pp. 885--890. \[5\] K. Zhou, B. Sisman, R. Liu, and H. Li, "Seen and unseen emotional style transfer for voice conversion with a new emotional speech dataset," in ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 920--924. \[6\] P. Anastassiou, J. Chen, J. Chen, Y. Chen, Z. Chen, Z. Chen, J. Cong, L. Deng, C. Ding, L. Gao et al., "Seed-tts: A family of high-quality versatile speech generation models," arXiv preprint arXiv:2406.02430, 2024. \[7\] T. Guo, C. Wen, D. Jiang, N. Luo, R. Zhang, S. Zhao, W. Li, C. Gong, W. Zou, K. Han et al., "Didispeech: A large scale mandarin speech corpus," in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 6968--6972. \[8\] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, "Librispeech: an asr corpus based on public domain audio books," in 2015 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2015, pp. 5206--5210. \[9\] H. Bu, J. Du, X. Na, B. Wu, and H. Zheng, "Aishell-1: An open-source mandarin speech corpus and a speech recognition baseline," in 2017 20th conference of the oriental chapter of the international coordinating committee on speech databases and speech I/O systems and assessment (O-COCOSDA). IEEE, 2017, pp. 1--5. \[10\] Z. Gao, Z. Li, J. Wang, H. Luo, X. Shi, M. Chen, Y. Li, L. Zuo, Z. Du, and S. Zhang, "Funasr: A fundamental end-to-end speech recognition toolkit," in 24th Annual Conference of the International Speech Communication Association, Interspeech 2023, Dublin, Ireland, August 20-24, 2023. ISCA, 2023, pp. 1593--1597. \[11\] A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever, "Robust speech recognition via large-scale weak supervision," in International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA, vol. 202, pp. 28 492--28 518. \[12\] Z. Ma, Z. Zheng, J. Ye, J. Li, Z. Gao, S. Zhang, and X. Chen, "emotion2vec: Self-supervised pre-training for speech emotion representation," in Findings of the Association for Computational Linguistics, ACL 2024, Bangkok, Thailand and virtual meeting, August 11-16, 2024, L. Ku, A. Martins, and V. Srikumar, Eds. Association for Computational Linguistics, 2024, pp. 15 747--15 760. \[13\] Y. Wang, H. Zhan, L. Liu, R. Zeng, H. Guo, J. Zheng, Q. Zhang, X. Zhang, S. Zhang, and Z. Wu, "Maskgct: Zero-shot text-to-speech with masked generative codec transformer," arXiv preprint arXiv:2409.00750, 2024. \[14\] Y. Chen, Z. Niu, Z. Ma, K. Deng, C. Wang, J. Zhao, K. Yu, and X. Chen, "F5-tts: A fairytaler that fakes fluent and faithful speech with flow matching," arXiv preprint arXiv:2410.06885, 2024. \[15\] Z. Du, Y. Wang, Q. Chen, X. Shi, X. Lv, T. Zhao, Z. Gao, Y. Yang, C. Gao, H. Wang et al., "Cosyvoice 2: Scalable streaming speech synthesis with large language models," arXiv preprint arXiv:2412.10117, 2024. \[16\] X. Wang, M. Jiang, Z. Ma, Z. Zhang, S. Liu, L. Li, Z. Liang, Q. Zheng, R. Wang, X. Feng et al., "Spark-tts: n efficient llm-based text-to-speech model with single-stream decoupled speech tokens," arXiv preprint arXiv:2503.01710, 2025. -End- 作者丨Index SpeechTeam