ESVC论文笔记

ESVC: COMBINING ADAPTIVE STYLE FUSION AND MULTI-LEVEL FEATURE DISENTANGLEMENT FOR EXPRESSIVE SINGING VOICE CONVERSION阅读笔记

发现问题

虽然SVC在自然度和相似度方面都取得了很好的效果,但音频中除了歌手身份之外,情感表达也是传递歌手感情和态度的必要条件,现有的模型在情感表达上还有待提升。

歌曲的情感元素与歌手的身份是非常纠结的,所以加强一个可能会削弱另一个,导致整体表现力的缺乏。因此,有必要引入身份聚类损失来抵消情感聚类带来的身份偏见。

解决问题

提出一种表达性的SVC框架即ESVC,它可以同时转换歌手的身份和情感风格, ESVC结合了风格融合和特征分离的思想,力求在情感风格和歌手身份方面最大限度地忠实

具体实现:

采用自适应实例归---化(AdalN)取代添加功能,融合内容特征和风格特征。考虑到信息泄露的可能性,引入了两种面向解纠缠的方法来解耦不同种类的歌唱特征。(1)互信息(MI)用于降低语言内容、基频(FO)和歌手、情感表达特征之间的相关性。(2)对抗性三联体损失则用于解耦身份和情感元素。

模型结构

选择ContentVec作为内容编码器,基于ppg的ContentVec模型有望贡献更多的纯内容信息,包含更少的非语言信息。基于hifi-gan的生成器,它以内容变量z、表达嵌入g和基频特征f0为条件,重构原始波形x。

实现方法

1、AdaIN ResBlock模块

目的:为了充分融合内容特征和风格特征,在后验编码器、归---化流、FO解码器和解码器四个模块中引入了两个具有自适应实例归-化(AdalN)残块。

其中,c和g分别表示单通道的内容特征映射和表达嵌入。μ(·)和σ(·)表示通道均值和标准差。通过线性投影从g中得到调制项Lσ(g)和加法项Lμ(g),作为风格迁移的影响因素。通过它,在每个通道中,可以将风格特征有机地注入到内容特征中。此外,残块的整合可以进一步增加转换歌曲的自然度和风格表现力。

2、Mutual Information 损失

MI损失用于减少内容表示xc、歌手与情感表示g和FO表示FO之间的相互依赖关系。利用一种对抗的思想,使各表征解耦更干净。变分对比对数比上界(vCLUB)来测量MI。

I(X, Y):表示随机变量X和Y之间的互信息。I(X, Y)的值越小,表示X和Y之间的X相互依赖程度越低,即它们之间的相关性越小。p(X,Y):表示X和Y的联合概率分布。 q θ ( Y 1 X ) q\theta(Y_1X) qθ(Y1X):表示给定×时, Y的条件概率分布,它是一个变分分布,用来近似真实X的条件概率分布 p(Y | X)。p(X)和p(Y):分别表示X和Y的边缘概率分布。互信息I(X, Y)等于在X和Y的联合分布下,给定X时, Y的条件概率分布的对数X期望值,减去X和Y的边缘分布下, Y的条件概率分布的对数期望值。

公式3 是公式 2 的无偏估计,互信息^I(X, Y)等于所有样本对(xi, yi)和(xi, yj)的对数概率比值之和,再除以样本数量的平方。它通过样本数据来近似计算两个随机变量之间的互信息,从而衡量它们之间的相关性。

其中 I ^ ( x c , g ) \widehat I(x_ {c} , g) I (xc,g) :表示内容表示xc和表达表示g之间的互信息。
I ^ ( x c , f o ) \widehat I(x_c, fo) I (xc,fo):表示内容表示 xc 和音高表示 f0 之间的互信息。
I ^ ( g , f o ) \widehat I(g, fo) I (g,fo):表示表达表示g和音高表示fo之间的互信息。

互信息损失LMI等于内容表示、表达表示和音高表示两两之间的互信息之和。通过最小化 LMI,可以降低这些唱歌特征表示之间的相关性,从而实现特征解耦。

3、Adversarial Triplet 损失

为了解决不能很好地将两种不同类型的表达元素(歌手身份和情感风格)同时转换。以往的研究旨在将身份与风格直接解耦,但这种解耦只是利用了同一样本的特征。

在融合前将情感嵌入和身份嵌入连接起来,然后对不同样本之间的混合嵌入进行聚类。我们采用三元损失作为聚类的向导。

三元组损失:

其中 a i a_i ai, p i p_i pi, n i n_i ni构成两个三元组,表示第i批的嵌入对,分别包括歌手空间和情感空间的锚点样本、正样本和负样本。d(.)为L1距离。 α 1 \alpha_1 α1, α 2 \alpha_2 α2是在正对和负对之间的距离边界,小于0的一个值,不然当 a i a_i ai, p i p_i pi, n i n_i ni都等0时,既满足条件,但都等于0时不符合要求。它们在正对和负对之间强制执行距离界限。通过对歌手身份和情感风格的对抗性三重体Lsin和Lemo的损失,可以保证所有正对之间的距离比负对之间的距离要小。

总损失:

总损失函数包括:对抗损失Ladv(G)和Ladv(D), KL损失Lkl, mel和FO重构损失Lrec和Lfo,特征匹配损失Lfm(G),另一部分是由权值入MI控制的互信息损失LMI。最后1是对抗性三联体损失,包括情绪导向损失Lemo和歌手导向损失Lsin.

相关推荐
chnyi6_ya16 小时前
论文笔记:Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
论文阅读·人工智能·自然语言处理
小嗷犬2 天前
【论文笔记】LLaVA-o1: Let Vision Language Models Reason Step-by-Step
论文阅读·人工智能·语言模型·大模型·多模态
奈斯。zs2 天前
论文阅读——Intrusion detection systems using longshort‑term memory (LSTM)
论文阅读·人工智能·入侵检测·nids
dundunmm2 天前
论文阅读:A fast, scalable and versatile tool for analysis of single-cell omics data
论文阅读·数据挖掘·单细胞数据·单细胞多组学数据·细胞聚类
是Winky啊2 天前
【论文阅读】WGSR
论文阅读·深度学习·计算机视觉·超分辨率重建
hhhhhlt2 天前
【代码大模型的隐私安全】Unveiling Memorization in Code Models论文阅读
论文阅读·安全
世界宇宙超级无敌究极特级顶级第一非常谱尼2 天前
论文阅读——Performance Evaluation of Passive Tag to Tag Communications(一)
论文阅读·物联网·天线·信息与通信
dundunmm2 天前
论文阅读:SIMBA: single-cell embedding along with features
论文阅读·人工智能·数据挖掘·embedding·生物信息·多组学细胞数据·单组学
xhyu612 天前
【论文笔记】LLaVA-KD: A Framework of Distilling Multimodal Large Language Models
论文阅读·人工智能·语言模型
MorleyOlsen2 天前
【经典论文阅读】NeRF(神经辐射场,neural radiance fields)
论文阅读·nerf