用语言模型探索语音风格空间：无需情感标签的情感TTS

原文：Exploring speech style spaces with language models: Emotional TTS without emotion labels

今天我们要说的是一种无需情感标签的情感TTS。提出了一个基于FastSpeech2的E-TTS框架，该框架经过两个阶段的训练，直接从未标注情感的训练数据中学习情感表示。我们利用风格标记构建情感风格空间，并使用微调后的BERT模型有效探索此空间。

下面先来看一下这个两阶段训练方法，
第一阶段：构建情感样式空间，

训练声学模块，包括文本、方差适配器、解码器和GST网络（由参考编码器和样式嵌入组成），如图1所示。编码器将音素嵌入转换为音素隐藏序列，而方差适配器则引入引入了音高、时长和能量的变化。解码器然后将这个隐藏序列翻译成梅尔频谱图输出
第二阶段：使用语言模型探索样式空间

第二阶段包括三个模块，
情感数据修剪 ：为了捕捉语音-文本对之间的情感关联，我们使用微调后的DistilRoBERTa-base语言模型，从文本中预测情感类别概率。对于每个样本，我们使用该模型计算主导情感。如果主导情感类别的概率超过实验选择的阈值Pth，则将该样本包含在第二阶段的训练数据集中。这和我之前在群里说的用分类器收集语音很像哦（识别是正常人的语音舍弃，构音障碍的语音就收录。）
情感文本嵌入 ：为了表示文本中的情感内容，我们使用微调后的DistilRoBERTa-base语言模型的最后一层的平均池化提取情感文本嵌入。
适配模块 ：我们建立了文本中情感上下文与语音中情感韵律之间的情感关联。可以看图2 主要是对情感样式空间和情感文本嵌入空间的可视化及概念链接。

然后，看一下实验，

我们使用两个数据集的组合训练TEMOTTS的第一阶段：LJSpeech和情感TTS数据集。将数据集

划分为训练集、验证集和测试集，比例为1.8:1:1 。
对于第二阶段 ，我们使用情感数据修剪方法来选择情感数据集 $35$ 的一个子集。
对于评估 ，我们使用GPT-3 生成的句子创建两个测试集。第一组包含随机生成的句子，用于评估词错误率（WER）和字符错误率（CER）。第二组包含高情感内容丰富的句子，旨在评估模型的情感文本感知能力。

评估又包括了客观评估和主观评估。
对于客观评估

为了评估模型合成情感语音的能力，我们在情感TTS数据集上微调Wave2Vec2.0 $39$ 训练了一个SER。我们使用GPT3 $14$ 合成每个情绪类别（愤怒、快乐、中立、悲伤）的50个句子。我们使用训练好的SER评估模型从文本合成预期情感的能力。
对于主观评估

可以看到这两个折线图，只有这个模型是最接近真实值的。

引言

研究背景

许多情感文本转语音（E-TTS）框架依赖于人工标注的情感标签，这些标签往往不准确且难以获取。
情感韵律的学习具有挑战性，因为情感本身具有主观性。

研究目标

提出一种无需明确情感标签或文本提示的新型E-TTS方法TEMOTTS。
展示该方法在情感准确性和自然度方面的改进。

TEMOTTS框架

阶段一：构建情感风格空间

训练声学模块，包括文本编码器、方差适配器、解码器和GST网络。
GST网络由参考编码器和风格嵌入组成，用于为各种说话风格条件化TTS模型的编码器。
模型隐式学习代表情感的说话风格。

阶段二：使用语言模型探索风格空间

情感数据剪枝

使用细调的DistilRoBERTa-base语言模型预测文本的情感类别概率。
如果主导情感的概率超过阈值Pth，则将样本纳入训练数据集。

情感文本嵌入

提取情感文本嵌入，使用均池化从细调的语言模型最后一层中获得。

适应模块

建立文本情感上下文与语音情感韵律之间的情感关联。
通过t-SNE可视化情感风格空间和情感文本嵌入空间的关系。
引入适应模块，将情感文本嵌入映射到相应的情感风格表示。

推理阶段

推理时仅需文本作为输入，生成情感文本嵌入。
预测GST权重，访问由风格令牌构建的情感风格空间。
合成文本感知的情感语音。
-

实验结果

客观评估

计算CER和WER以评估合成语音的可理解性。
使用SER评估模型合成预期情感的能力。
结果显示，TEMOTTS在情感准确性和表达能力上优于基线模型。

主观评估

进行听觉实验评估语音质量和合成文本感知情感语音的能力。
MOS评估表明，TEMOTTS在自然度方面表现更好。
BWS测试显示，TEMOTTS在合成文本-情感准确性方面表现最佳。

结论

TEMOTTS克服了人工标注情感标签和情感韵律学习复杂性的挑战。
利用文本感知获取情感风格，消除了训练时对明确情感标签的需求和推理时的辅助输入。
实验展示了在情感准确性、自然度和可理解性方面的显著改进。

用语言模型探索语音风格空间：无需情感标签的情感TTS

用语言模型探索语音风格空间：无需情感标签的情感TTS

引言

研究背景

研究目标

相关工作

减少情感标签使用的研究

文本感知TTS

TEMOTTS框架

阶段一：构建情感风格空间

阶段二：使用语言模型探索风格空间

情感数据剪枝

情感文本嵌入

适应模块

推理阶段

实验结果

客观评估

主观评估

结论

用语言模型探索语音风格空间：无需情感标签的情 感TTS

用语言模型探索语音风格空间：无需情感标签的情感TTS

引言

研究背景

研究目标

相关工作

减少情感标签使用的研究

文本感知TTS

TEMOTTS框架

阶段一：构建情感风格空间

阶段二：使用语言模型探索风格空间

情感数据剪枝

情感文本嵌入

适应模块

推理阶段

实验结果

客观评估

主观评估

结论

用语言模型探索语音风格空间：无需情感标签的情感TTS