ESVC论文笔记 - 技术栈

ESVC: COMBINING ADAPTIVE STYLE FUSION AND MULTI-LEVEL FEATURE DISENTANGLEMENT FOR EXPRESSIVE SINGING VOICE CONVERSION阅读笔记

发现问题

虽然SVC在自然度和相似度方面都取得了很好的效果,但音频中除了歌手身份之外,情感表达也是传递歌手感情和态度的必要条件，现有的模型在情感表达上还有待提升。

歌曲的情感元素与歌手的身份是非常纠结的,所以加强一个可能会削弱另一个，导致整体表现力的缺乏。因此，有必要引入身份聚类损失来抵消情感聚类带来的身份偏见。

解决问题

提出一种表达性的SVC框架即ESVC,它可以同时转换歌手的身份和情感风格, ESVC结合了风格融合和特征分离的思想，力求在情感风格和歌手身份方面最大限度地忠实

具体实现：

采用自适应实例归---化（AdalN）取代添加功能，融合内容特征和风格特征。考虑到信息泄露的可能性，引入了两种面向解纠缠的方法来解耦不同种类的歌唱特征。(1)互信息(MI)用于降低语言内容、基频(FO)和歌手、情感表达特征之间的相关性。(2)对抗性三联体损失则用于解耦身份和情感元素。

模型结构

选择ContentVec作为内容编码器,基于ppg的ContentVec模型有望贡献更多的纯内容信息,包含更少的非语言信息。基于hifi-gan的生成器,它以内容变量z、表达嵌入g和基频特征f0为条件，重构原始波形x。

实现方法

1、AdaIN ResBlock模块

目的：为了充分融合内容特征和风格特征，在后验编码器、归---化流、FO解码器和解码器四个模块中引入了两个具有自适应实例归-化(AdalN)残块。

其中，c和g分别表示单通道的内容特征映射和表达嵌入。μ(·）和σ(·）表示通道均值和标准差。通过线性投影从g中得到调制项Lσ(g)和加法项Lμ（g），作为风格迁移的影响因素。通过它，在每个通道中，可以将风格特征有机地注入到内容特征中。此外，残块的整合可以进一步增加转换歌曲的自然度和风格表现力。

2、Mutual Information 损失

MI损失用于减少内容表示xc、歌手与情感表示g和FO表示FO之间的相互依赖关系。利用一种对抗的思想,使各表征解耦更干净。变分对比对数比上界(vCLUB)来测量MI。

I(X, Y):表示随机变量X和Y之间的互信息。I(X, Y)的值越小,表示X和Y之间的X相互依赖程度越低,即它们之间的相关性越小。p(X,Y)：表示X和Y的联合概率分布。 q θ ( Y 1 X ) q\theta(Y_1X) qθ(Y1X):表示给定×时, Y的条件概率分布,它是一个变分分布,用来近似真实X的条件概率分布 p(Y | X)。p(X)和p(Y):分别表示X和Y的边缘概率分布。互信息I(X, Y)等于在X和Y的联合分布下,给定X时, Y的条件概率分布的对数X期望值,减去X和Y的边缘分布下, Y的条件概率分布的对数期望值。

公式3 是公式 2 的无偏估计,互信息^I(X, Y)等于所有样本对(xi, yi)和(xi, yj)的对数概率比值之和，再除以样本数量的平方。它通过样本数据来近似计算两个随机变量之间的互信息,从而衡量它们之间的相关性。

其中 I ^ ( x c , g ) \widehat I(x_ {c} , g) I (xc,g) :表示内容表示xc和表达表示g之间的互信息。
I ^ ( x c , f o ) \widehat I(x_c, fo) I (xc,fo)：表示内容表示 xc 和音高表示 f0 之间的互信息。
I ^ ( g , f o ) \widehat I(g, fo) I (g,fo):表示表达表示g和音高表示fo之间的互信息。

互信息损失LMI等于内容表示、表达表示和音高表示两两之间的互信息之和。通过最小化 LMI，可以降低这些唱歌特征表示之间的相关性，从而实现特征解耦。

3、Adversarial Triplet 损失

为了解决不能很好地将两种不同类型的表达元素(歌手身份和情感风格)同时转换。以往的研究旨在将身份与风格直接解耦，但这种解耦只是利用了同一样本的特征。

在融合前将情感嵌入和身份嵌入连接起来,然后对不同样本之间的混合嵌入进行聚类。我们采用三元损失作为聚类的向导。

三元组损失：

其中 a i a_i ai, p i p_i pi, n i n_i ni构成两个三元组，表示第i批的嵌入对,分别包括歌手空间和情感空间的锚点样本、正样本和负样本。d(.)为L1距离。 α 1 \alpha_1 α1, α 2 \alpha_2 α2是在正对和负对之间的距离边界，小于0的一个值，不然当 a i a_i ai, p i p_i pi, n i n_i ni都等0时，既满足条件，但都等于0时不符合要求。它们在正对和负对之间强制执行距离界限。通过对歌手身份和情感风格的对抗性三重体Lsin和Lemo的损失，可以保证所有正对之间的距离比负对之间的距离要小。

总损失：

总损失函数包括:对抗损失Ladv(G)和Ladv(D), KL损失Lkl, mel和FO重构损失Lrec和Lfo,特征匹配损失Lfm(G),另一部分是由权值入MI控制的互信息损失LMI。最后1是对抗性三联体损失,包括情绪导向损失Lemo和歌手导向损失Lsin.