ESVC论文笔记

ESVC: COMBINING ADAPTIVE STYLE FUSION AND MULTI-LEVEL FEATURE DISENTANGLEMENT FOR EXPRESSIVE SINGING VOICE CONVERSION阅读笔记

发现问题

虽然SVC在自然度和相似度方面都取得了很好的效果,但音频中除了歌手身份之外,情感表达也是传递歌手感情和态度的必要条件,现有的模型在情感表达上还有待提升。

歌曲的情感元素与歌手的身份是非常纠结的,所以加强一个可能会削弱另一个,导致整体表现力的缺乏。因此,有必要引入身份聚类损失来抵消情感聚类带来的身份偏见。

解决问题

提出一种表达性的SVC框架即ESVC,它可以同时转换歌手的身份和情感风格, ESVC结合了风格融合和特征分离的思想,力求在情感风格和歌手身份方面最大限度地忠实

具体实现:

采用自适应实例归---化(AdalN)取代添加功能,融合内容特征和风格特征。考虑到信息泄露的可能性,引入了两种面向解纠缠的方法来解耦不同种类的歌唱特征。(1)互信息(MI)用于降低语言内容、基频(FO)和歌手、情感表达特征之间的相关性。(2)对抗性三联体损失则用于解耦身份和情感元素。

模型结构

选择ContentVec作为内容编码器,基于ppg的ContentVec模型有望贡献更多的纯内容信息,包含更少的非语言信息。基于hifi-gan的生成器,它以内容变量z、表达嵌入g和基频特征f0为条件,重构原始波形x。

实现方法

1、AdaIN ResBlock模块

目的:为了充分融合内容特征和风格特征,在后验编码器、归---化流、FO解码器和解码器四个模块中引入了两个具有自适应实例归-化(AdalN)残块。

其中,c和g分别表示单通道的内容特征映射和表达嵌入。μ(·)和σ(·)表示通道均值和标准差。通过线性投影从g中得到调制项Lσ(g)和加法项Lμ(g),作为风格迁移的影响因素。通过它,在每个通道中,可以将风格特征有机地注入到内容特征中。此外,残块的整合可以进一步增加转换歌曲的自然度和风格表现力。

2、Mutual Information 损失

MI损失用于减少内容表示xc、歌手与情感表示g和FO表示FO之间的相互依赖关系。利用一种对抗的思想,使各表征解耦更干净。变分对比对数比上界(vCLUB)来测量MI。

I(X, Y):表示随机变量X和Y之间的互信息。I(X, Y)的值越小,表示X和Y之间的X相互依赖程度越低,即它们之间的相关性越小。p(X,Y):表示X和Y的联合概率分布。 q θ ( Y 1 X ) q\theta(Y_1X) qθ(Y1X):表示给定×时, Y的条件概率分布,它是一个变分分布,用来近似真实X的条件概率分布 p(Y | X)。p(X)和p(Y):分别表示X和Y的边缘概率分布。互信息I(X, Y)等于在X和Y的联合分布下,给定X时, Y的条件概率分布的对数X期望值,减去X和Y的边缘分布下, Y的条件概率分布的对数期望值。

公式3 是公式 2 的无偏估计,互信息^I(X, Y)等于所有样本对(xi, yi)和(xi, yj)的对数概率比值之和,再除以样本数量的平方。它通过样本数据来近似计算两个随机变量之间的互信息,从而衡量它们之间的相关性。

其中 I ^ ( x c , g ) \widehat I(x_ {c} , g) I (xc,g) :表示内容表示xc和表达表示g之间的互信息。
I ^ ( x c , f o ) \widehat I(x_c, fo) I (xc,fo):表示内容表示 xc 和音高表示 f0 之间的互信息。
I ^ ( g , f o ) \widehat I(g, fo) I (g,fo):表示表达表示g和音高表示fo之间的互信息。

互信息损失LMI等于内容表示、表达表示和音高表示两两之间的互信息之和。通过最小化 LMI,可以降低这些唱歌特征表示之间的相关性,从而实现特征解耦。

3、Adversarial Triplet 损失

为了解决不能很好地将两种不同类型的表达元素(歌手身份和情感风格)同时转换。以往的研究旨在将身份与风格直接解耦,但这种解耦只是利用了同一样本的特征。

在融合前将情感嵌入和身份嵌入连接起来,然后对不同样本之间的混合嵌入进行聚类。我们采用三元损失作为聚类的向导。

三元组损失:

其中 a i a_i ai, p i p_i pi, n i n_i ni构成两个三元组,表示第i批的嵌入对,分别包括歌手空间和情感空间的锚点样本、正样本和负样本。d(.)为L1距离。 α 1 \alpha_1 α1, α 2 \alpha_2 α2是在正对和负对之间的距离边界,小于0的一个值,不然当 a i a_i ai, p i p_i pi, n i n_i ni都等0时,既满足条件,但都等于0时不符合要求。它们在正对和负对之间强制执行距离界限。通过对歌手身份和情感风格的对抗性三重体Lsin和Lemo的损失,可以保证所有正对之间的距离比负对之间的距离要小。

总损失:

总损失函数包括:对抗损失Ladv(G)和Ladv(D), KL损失Lkl, mel和FO重构损失Lrec和Lfo,特征匹配损失Lfm(G),另一部分是由权值入MI控制的互信息损失LMI。最后1是对抗性三联体损失,包括情绪导向损失Lemo和歌手导向损失Lsin.

相关推荐
s1ckrain15 小时前
【论文阅读】VARGPT-v1.1
论文阅读·多模态大模型·统一生成模型
Catching Star18 小时前
【论文笔记】【强化微调】Vision-R1:首个针对多模态 LLM 制定的强化微调方法,以 7B 比肩 70B
论文阅读·强化微调
王上上18 小时前
【论文阅读41】-LSTM-PINN预测人口
论文阅读·人工智能·lstm
s1ckrain1 天前
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
论文阅读·强化学习·多模态大模型·vlm
张较瘦_2 天前
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究:来龙去脉与创新突破
论文阅读·人工智能
北京地铁1号线2 天前
GPT-2论文阅读:Language Models are Unsupervised Multitask Learners
论文阅读·gpt·语言模型
张较瘦_3 天前
[论文阅读] 人工智能 + 软件工程 | 软件架构中自然问题主动辅助研究:从挑战到解决方案
论文阅读·人工智能·软件工程
有Li3 天前
通过具有一致性嵌入的大语言模型实现端到端乳腺癌放射治疗计划制定|文献速递-最新论文分享
论文阅读·深度学习·分类·医学生
张较瘦_3 天前
[论文阅读] 人工智能 | 深度学习系统崩溃恢复新方案:DaiFu框架的原位修复技术
论文阅读·人工智能·深度学习
selia10783 天前
[论文阅读] Neural Architecture Search: Insights from 1000 Papers
论文阅读