扩散模型语音克隆：参考音频注入的五种方式

语音克隆的核心是让模型"听懂"参考音频里的音色，并将其迁移到新的内容上。在扩散模型框架下，如何把参考音频的信息注入生成过程，是系统设计的关键选择之一。本文梳理当前主流的五种注入方式，分析各自的机制、优缺点和代表系统。

前言

不同的注入方式，决定了模型以什么方式"感知"目标音色：

是通过一个压缩的向量（speaker embedding）？
还是直接看到完整的参考音频帧序列？
还是把参考音频和待生成音频拼在一起，让模型自己区分？

这些选择背后，是架构复杂度、音色保真度、灵活性之间不同的权衡。

一、掩码扩散（Masked Diffusion / Speech Infilling）

机制

把参考音频和待生成音频在序列维度上拼接，用二值掩码区分两个区域：

复制代码

序列维度：[参考音频帧 | 待生成音频帧]
                ↕ concat on feature dim（通道维度）
掩码语音：  [真实梅尔频谱  | 零（掩码置空）    ]
噪声语音：  [加噪梅尔频谱  | 加噪梅尔频谱      ]  ← 整体加噪后送入
文本条件：  [填充 token    | 音素序列          ]

训练时，模型被训练成一个**语音填充（Speech Infilling）**任务：给定参考音频区域的真实梅尔频谱和待生成区域的目标，学习在掩码区域生成与参考音色一致的语音。

推理时，参考音频区域的梅尔频谱已知，待生成区域从噪声开始去噪，模型通过自注意力同时看到参考区域（低噪声或无噪声）和待生成区域，从前者学习音色信息。

代表系统

F5-TTS、E2-TTS、VoiceBox

F5-TTS 的完整输入是三路在通道维度上的 concat：

噪声语音（noisy speech）：整个序列（含参考和待生成部分）加噪后的梅尔频谱
掩码语音（masked speech）：参考音频区域保留真实梅尔频谱，待生成区域置零
文本条件：填充到序列等长的音素嵌入

优点

架构极简，无需独立的 speaker encoder
音色一致性强，模型直接看到完整的参考帧序列，可以捕捉细粒度的音色特征
参考音频长度灵活，不需要和生成音频等长

缺点

参考音频必须在推理时完整送入，不能预先提取和缓存 speaker embedding
参考音频越长，序列越长，计算量线性增加
音色和内容信息混合在序列中，模型需要通过自注意力隐式解耦
双向污染问题：DiT 的全局双向自注意力使参考区域和待生成区域（噪声）相互 attend，参考帧的隐层表示会被噪声"污染"，逐层累积后待生成区域从中提取到的音色信息质量下降，在早期时间步尤为明显。F5-TTS 的掩码语音输入提供了一定的锚点缓解，但无法完全消除（详见《掩码扩散中的双向污染问题》）

二、Speaker Embedding 注入（AdaLN / FiLM）

机制

先用独立的 Speaker Encoder 把参考音频编码为固定长度的向量（speaker embedding），再通过仿射变换注入到扩散模型的每一层。

最常用的注入方式是 Adaptive Layer Normalization（AdaLN）：

python 复制代码

# speaker embedding → scale 和 shift
scale, shift = linear(speaker_embedding)

# 注入到每一层的 LayerNorm
hidden = scale * LayerNorm(hidden) + shift

或者 FiLM（Feature-wise Linear Modulation），原理相同，对每个特征维度独立调制。

代表系统

VoxFlash-TTS、NaturalSpeech 2、Grad-TTS、StyleTTS 2

优点

音色与内容完全解耦，speaker embedding 只携带音色信息
可预先提取和缓存：参考音频只需处理一次，embedding 可以复用
推理时序列长度不受参考音频影响，计算量稳定
speaker embedding 可以进行插值、算术运算（音色混合等）

缺点

Speaker Encoder 的泛化能力决定克隆上限，对未见过的说话人效果有限
embedding 是固定维度的压缩表示，细粒度音色特征可能丢失
Speaker Encoder 可以联合训练（端到端）或单独预训练，联合训练时整体复杂度增加，预训练时需要额外的说话人识别数据

三、交叉注意力注入（Cross-Attention）

机制

参考音频经过编码器后，作为 Cross-Attention 的 Key 和 Value；扩散模型的隐层表示作为 Query，通过注意力机制主动查询参考音色信息：

复制代码

Q = 扩散模型隐层表示        shape: [T_audio, d]
K = 参考音频编码序列        shape: [T_ref, d]
V = 参考音频编码序列        shape: [T_ref, d]

output = CrossAttention(Q, K, V)  → 每个音频帧从参考中提取相关音色特征

代表系统

部分基于 DiT 的 TTS 系统、Hierspeech++ 、SupertonicTTS（Perceiver 变体） 等

SupertonicTTS 采用了交叉注意力的一个重要变体------Perceiver 风格压缩 ：先用可学习 Query（固定数量 N）通过交叉注意力把变长参考音频序列压缩为固定长度的音色摘要向量 [N, d]，再通过交叉注意力注入到扩散模型隐层。这样推理时计算量不受参考音频长度影响，介于"单一 embedding（AdaLN）"和"完整序列交叉注意力"之间，兼顾细粒度和效率。

优点

生成序列可以细粒度、动态地从参考音频的不同时间段提取特征
参考音频长度灵活，不需要预先压缩为固定向量
注意力权重可解释，可以分析模型关注参考音频的哪些部分

缺点

扩散早期时间步存在对齐失效问题（见本系列上一篇文章的详细分析）：Query 接近噪声时，注意力权重分布混乱，无法有效提取音色
计算开销与参考音频长度正相关
和掩码扩散相比，不能直接保留参考帧的完整信息

四、In-context Prompt（语言模型范式）

机制

把参考音频编码为离散 token 序列，和目标文本 token 一起作为 prompt 送入模型，让模型通过上下文学习目标音色：

复制代码

输入序列：[参考音频 token_1, token_2, ... | 目标文本 token | <生成>]
                                                              ↓
                                                     生成目标音频 token

类似 GPT 的 few-shot in-context learning：模型看到参考音频的 token 表示后，

"理解"目标音色，然后用这个音色生成新内容。

代表系统

VALL-E、VALL-E 2、VoiceBox（部分）

VALL-E 用 EnCodec 将音频编码为多层离散 token，AR 语言模型根据参考 token + 文本生成目标 token 的第一层（粗粒度），NAR 模型补全其余层（细粒度）。

优点

无需独立的 speaker encoder，音色信息隐含在 token 序列中
自然支持零样本克隆，类似 GPT 的 few-shot prompting
参考音频的时序结构完整保留在 token 序列中

缺点

依赖高质量的音频 tokenizer（如 EnCodec），tokenizer 的重建质量决定音色保真度
参考音频越长，prompt 越长，受上下文窗口长度限制
离散 token 会引入量化损失，部分细粒度音色特征丢失
自回归生成推理速度慢（VALL-E 原版）

五、通道维度 Concat（特征拼接）

机制

将参考音频的梅尔频谱或编码特征，在特征（通道）维度上直接与噪声序列拼接，作为扩散模型的条件输入：

复制代码

参考音频特征：  [T, d_ref]
噪声序列：      [T, d_audio]
        ↓ concat on feature dim
输入：          [T, d_ref + d_audio]

注意：这里的序列长度 T 需要参考特征和噪声序列对齐（或参考特征广播）。

这种方式和掩码扩散的区别在于：掩码扩散是序列维度的拼接 （参考帧 + 待生成帧），通道 Concat 是特征维度的拼接（每个位置都有参考特征）。

代表系统

部分早期 TTS 扩散模型，SupertonicTTS 在 latent encoder 阶段有类似设计

优点

每个生成帧都能直接访问参考音色特征
实现简单，不需要额外模块

缺点

参考音频特征需要广播或对齐到生成序列长度，灵活性较低
特征维度增加，每个 token 的计算量上升
参考音频的全局音色 和局部时序特征混在一起

五种方式中 SupertonicTTS 的位置

SupertonicTTS 的参考音频注入是多阶段组合：

复制代码

参考音频
    ↓
Latent Encoder（编码为变长序列）
    ↓
可学习 Query（固定数量 N）+ 交叉注意力压缩   ← Perceiver 风格
    ↓
固定长度向量序列 [N, d]（和参考音频长度无关）
    ↓
交叉注意力注入到扩散模型隐层

先用可学习 Query 把变长参考音频序列压缩为固定长度的音色摘要向量，再通过交叉注意力注入。这介于"AdaLN/FiLM（单一 embedding）"和"完整序列交叉注意力"之间------比单一 embedding 保留更多细节，比完整序列计算更高效，且推理时计算量不受参考音频长度影响。

注入方式	代表系统	需要 Speaker Encoder	参考音频处理	音色细粒度	计算开销	早期时间步稳定性	双向污染
掩码扩散	F5-TTS、VoiceBox	❌	完整帧序列（序列级）	高	随参考长度增加	稳定（参考区域低噪声）	✅ 存在（掩码语音部分缓解）
AdaLN / FiLM	VoxFlash-TTS、NaturalSpeech 2	✅	压缩为 embedding	中	稳定	稳定（条件固定）	❌ 不存在
交叉注意力	Hierspeech++、SupertonicTTS（Perceiver）	✅/❌	编码后压缩为固定长度向量序列	高	压缩后稳定	不稳定（Query 为噪声时，但音色注入场景影响较小）	❌ 不存在（参考独立编码）
In-context Prompt	VALL-E	❌	离散 token 序列	中	随上下文长度增加	取决于生成框架	有限（AR 单向性限制）
通道 Concat	部分早期系统	❌/✅	特征广播	中	特征维度增加	稳定（条件固定）	❌ 不存在

七、设计选择的背后逻辑

音色信息的表示形式决定了可以选择的注入方式：

如果用压缩向量（speaker embedding）：AdaLN/FiLM 是自然的选择，解耦干净但细节有损
如果保留完整帧序列：掩码扩散或交叉注意力，细节保留好但计算量更大
如果用离散 token：in-context prompt，适合语言模型框架

扩散早期时间步的稳定性 是选择交叉注意力时需要特别考量的因素（参见本系列关于 LARoPE 的文章）。掩码扩散虽然对早期时间步的噪声 Query 问题免疫（参考区域的梅尔频谱是真实值），但存在另一个结构性问题：全局双向自注意力带来的双向污染------参考区域被待生成区域（噪声）反向污染，逐层累积影响音色提取质量（详见《掩码扩散中的双向污染问题》）。AdaLN/FiLM 和通道 Concat 对两个问题均免疫，因为 speaker embedding 是固定的条件向量，不参与噪声扩散过程。

八、小结

五种参考音频注入方式各有侧重：

掩码扩散：架构最简洁，音色细节保留最好，F5-TTS 的选择，本质是 speech infilling 任务
AdaLN / FiLM：音色解耦最彻底，embedding 可复用，VoxFlash-TTS 的选择
交叉注意力：灵活性最高，但需要处理早期时间步的对齐失效问题
In-context Prompt：最接近语言模型范式，VALL-E 系列的选择
通道 Concat：实现简单，适合特定架构约束下的条件注入

没有普遍最优的方案，选择哪种方式取决于对音色保真度、计算效率、架构简洁性和早期时间步稳定性的不同优先级。

参考资料

F5-TTS：arxiv.org/abs/2410.06885
E2-TTS：arxiv.org/abs/2406.18009
VALL-E：arxiv.org/abs/2301.02111
NaturalSpeech 2：arxiv.org/abs/2304.09116
VoxFlash-TTS Demo：voxflash.github.io