【情感识别】SECap: Speech Emotion Captioning with Large Language Model 论文阅读

发表于：2024AAAI

Abstract

语音情感在人类交流中至关重要，并广泛应用于语音合成和自然语言理解等领域。大多数先前的研究，如语音情感识别，已将语音情感分类为固定的类别集。然而，人类语音中表达的情感往往很复杂，将其分类为预定义的组别可能不足以充分表示语音情感。相反，通过自然语言直接描述语音情感可能是一种更有效的方法。遗憾的是，目前专注于这一方向的研究并不多。因此，本文提出了一种名为SECap的语音情感描述框架，旨在使用自然语言有效描述语音情感。由于大型语言模型在语言理解和文本生成方面的出色能力，SECap采用LLaMA作为文本解码器，以生成连贯的语音情感描述。此外，SECap利用HuBERT作为音频编码器提取通用语音特征，并使用Q-Former作为Bridge-Net为LLaMA提供与情感相关的语音特征。为此，Q-Former利用互信息学习解耦与情感相关的语音特征和语音内容，同时通过对比学习提取更多与情感相关的语音特征。客观和主观评估的结果表明：1）SECap框架在所有客观评估中均优于HTSAT-BART基线；2）SECap能够生成高质量的语音情感描述，在主观平均意见得分测试中达到与人工标注者相当的表现。

Introduction

语音交流在人们的日常生活中起着至关重要的作用，无论是在信息传递还是建立联系方面。作为人际交流的核心载体之一，语音不仅承担着语言交流的功能，还深刻涉及情感和意图的传递。准确识别和解读语音情感对于提升交流效果至关重要。因此，如何从语音中准确提取说话者的情感信息逐渐成为语音处理领域的重要课题。

以往的研究通常将语音情感获取视为分类任务，称为语音情感识别（SER）（El Ayadi, Kamel等，2011；Nwe, Foo和De Silva，2003；Jiang等，2019），其中恐惧和快乐等情感被分配到离散类别中。近年来，由于创新模型架构的出现，此类SER任务的性能取得了显著进展。

然而，传统的SER存在局限性，因为单一词汇标签往往缺乏细微差别，无法传达强度波动等详细情感信息。语音情感通常是多方面的，包含多种情感状态（例如同时存在的快乐和紧张）。将语音分类为单一情感类别可能无法充分捕捉真实情感。此外，情感感知的主观性导致个体在解读复杂语音时可能存在情感分类的变异性。考虑到语音情感分类的局限性，使用自然语言句子而非标签可能是更精确描述语音情感的有前景的策略。受自动音频描述（AAC）任务（Han等，2021；Chen等，2020；Ye等，2021）最新进展的启发，该任务使用自然语言描述音频中的声学事件，我们提出了语音情感描述（SEC）任务，并提出了创新的SECap框架，包括音频编码器、Bridge-Net和文本解码器，以使用自然语言描述人类语音情感。据我们所知，这是该领域的开创性工作之一。

在SEC任务中，有两个主要挑战需要解决：首先，如何从原始语音输入中提取与情感相关的语音特征；其次，如何生成高质量、类人的语音情感描述。对于第一个挑战，带有情感描述的有限语音数据使得从头训练音频编码器具有挑战性。受预训练模型在SER（Mohamed和Aly，2021）任务中成功的启发，我们使用HuBERT（Hsu等，2021）作为SECap的音频编码器，以进行稳健的语音特征提取。然而，直接使用帧级HuBERT特征可能会增加计算负担。为了解决这个问题，受BLIP-2（Li等，2023）的启发，我们采用Q-Former作为Bridge-Net来压缩HuBERT特征。虽然HuBERT特征中的声学和内容信息都与语音情感相关，但声学信息通常更直接与语音情感相关，而内容信息可以通过转录轻松获得。因此，在Bridge-Net中，我们旨在从HuBERT特征中分别提取与情感相关的声学信息，同时消除内容信息。因此，我们采用语音-描述对比学习和语音-转录互信息学习来训练Bridge-Net，以更好地提取与情感相关的声学信息。

对于第二个挑战，由于大型语言模型（LLMs）的进展及其在自然语言理解方面的出色能力，如GPT-4（OpenAI，2023），我们采用LLaMA（Touvron等，2023）作为文本解码器，以基于Q-Former提取的语音特征生成流畅连贯的语音情感描述。同时，我们使用LLaMA指导Q-Former的训练，从而更好地将语音情感特征投影到LLaMA中，最终生成更高质量的语音情感描述。

在评估方面，我们基于AAC任务设计了主观和客观评估指标，以更好地评估SECap生成的语音情感描述的质量。为了便于更有效的比较，我们选择在AAC任务中表现优异的HTSAT-BART模型（Mei等，2023）作为基线。实验结果表明，SECap在所有客观指标上均优于HTSAT-BART模型。在主观平均意见得分（MOS）测试中，SECap生成的语音情感描述的质量超过了人工标签（即3.77 vs. 3.39 MOS得分），并与人工注释相当（即3.77 vs. 3.85 MOS得分）。我们的主要贡献如下：

我们提出了语音情感描述（SEC）任务，据我们所知，这是使用自然语言描述语音情感的开创性工作之一。
我们提出了SECap1来解决SEC任务，该框架包括基于HuBERT的音频编码器、基于Q-Former的Bridge-Net和基于LLaMA的文本解码器。
实验结果表明，SECap能够生成合适且流畅的语音情感描述，其质量与人工标注的语音情感描述相当。

Method

Model Architecture

Figure 2: Framework of the proposed SECap

如图2所示，SECap采用了基于HuBERT的音频编码器、基于Q-Former的Bridge-Net以及基于LLaMA的文本解码器。

HuBERT用于提取语音嵌入，因为它具有强大的语音特征提取能力。然而，帧级别的HuBERT特征可能会导致较高的计算成本。我们采用基于Q-Former的Bridge-Net来压缩特征。同时，声学信息更直接与语音情感相关，而内容信息可以从转录文本中获取。因此，Bridge-Net用于提取与情感相关的声学信息并消除内容信息。我们采用LLaMA作为文本解码器，利用其卓越的语言理解能力生成语音情感描述。为了与LLaMA的输入格式对齐，我们将L-Embedding放置在"BOS"和提示词之间。这种方法通过提示词约束LLaMA的输出空间，从而生成更准确的语音情感描述。

Q-Former

由于HuBERT语音特征存在冗余，Q-Former被设计和采用来压缩并提取与情感相关的语音特征，其结构包括自注意力机制、交叉注意力机制和线性层。Q-queries是可学习的参数，用于提取语音嵌入。设 q ∈ R n q × d q q \in \mathbb{R}^{n_q \times d_q} q∈Rnq×dq 表示Q-queries，其中 n q n_q nq 是Q-queries的数量， d q d_q dq 是Q-queries的维度； S ∈ R n s × T s × d s S \in \mathbb{R}^{n_s \times T_s \times d_s} S∈Rns×Ts×ds 表示语音嵌入，其中 n s n_s ns 是批量大小， T s T_s Ts 是时间步数， d s d_s ds是语音嵌入的维度。我们首先将Q-queries q ∈ R n q × d q q \in \mathbb{R}^{n_q \times d_q} q∈Rnq×dq 输入到自注意力机制中：

其中 W q self ∈ R d q × d k W_q^{\text{self}} \in \mathbb{R}^{d_q \times d_k} Wqself∈Rdq×dk、 W k self ∈ R d q × d k W_k^{\text{self}} \in \mathbb{R}^{d_q \times d_k} Wkself∈Rdq×dk和 W v self ∈ R d q × d v W_v^{\text{self}} \in \mathbb{R}^{d_q \times d_v} Wvself∈Rdq×dv是自注意力机制中查询（queries）、键（keys）和值（values）的可学习权重矩阵， d k d_k dk和 d v d_v dv 分别是键和值的维度。自注意力机制的输出 A self ∈ R n q × d v A_{\text{self}} \in \mathbb{R}^{n_q \times d_v} Aself∈Rnq×dv 随后被用作交叉注意力机制的查询，而语音嵌入 S ∈ R n s × T s × d s S \in \mathbb{R}^{n_s \times T_s \times d_s} S∈Rns×Ts×ds 则作为键和值：

其中 A cross ∈ R n s × n q × d v A_{\text{cross}} \in \mathbb{R}^{n_s \times n_q \times d_v} Across∈Rns×nq×dv 表示交叉注意力的输出，而 W q ∈ R d v × d k W_q \in \mathbb{R}^{d_v \times d_k} Wq∈Rdv×dk、 W k ∈ R d s × d k W_k \in \mathbb{R}^{d_s \times d_k} Wk∈Rds×dk 和 W v ∈ R d s × d v W_v \in \mathbb{R}^{d_s \times d_v} Wv∈Rds×dv 是交叉注意力机制中查询（queries）、键（keys）和值（values）的可学习权重矩阵。这种方法使得注意力机制能够在语音嵌入中检索与Q-queries相关的特征。具体而言，Q-Former的输出，记为Q-Embedding Q e ∈ R n s × n q × d q Q_e \in \mathbb{R}^{n_s \times n_q \times d_q} Qe∈Rns×nq×dq，保持固定长度，与输入语音的长度无关。这种固定长度的表示提高了对不同长度语音输入的泛化性能。

为了向LLaMA提供更多与内容无关且与情感相关的语音特征，我们同时引入了人工标注的语音情感描述和转录文本。如图3所示，这些信息通过一个与原始Q-Former基本一致但省略了交叉注意力模块的Q-Former进行处理。这一过程生成了C-Embedding Q c ∈ R n s × T c × d q Q_c \in \mathbb{R}^{n_s \times T_c \times d_q} Qc∈Rns×Tc×dq 和T-Embedding Q t ∈ R n s × T t × d q Q_t \in \mathbb{R}^{n_s \times T_t \times d_q} Qt∈Rns×Tt×dq，其中 T c T_c Tc 和 T t T_t Tt 分别表示描述和转录文本的长度。我们采用语音-转录互信息学习（Speech-Transcription Mutual Information Learning）来从语音内容中解耦语音特征。此外，利用语音-描述对比学习（Speech-Caption Contrastive Learning）来提取更多与情感相关的语音特征。

图3：该图展示了Q-Former通过语音-转录互信息学习（Speech-Transcription Mutual Information Learning）利用语音特征（Q-Embedding）和语音转录特征（T-Embedding）解耦音频表示和内容信息。此外，通过语音-描述对比学习（Speech-Caption Contrastive Learning）利用语音特征（Q-Embedding）和语音情感描述特征（C-Embedding）获取更多与情感相关的音频表示。

Speech-Transcription Mutual Information Learning (STMIL)

语音内容可能会影响情感评估，例如以平静的语气表达喜悦的陈述。为了最小化语音特征与内容之间的相关性，从而减轻语音内容对LLaMA生成语音情感描述的影响，我们提出了语音-转录互信息学习（Speech-Transcription Mutual Information Learning）。如图3所示，我们将语音嵌入（Speech Embedding）和转录嵌入（Trans Embedding）同时输入到Q-Former中，生成Q-Embedding Q e Q_e Qe 和T-Embedding Q t Q_t Qt。这使得语音与其内容可以在统一的表示空间中进行比较。为了评估 Q e Q_e Qe 和 Q t Q_t Qt 之间的相关性，我们采用互信息 I ( Q t ; Q e ) I(Q_t; Q_e) I(Qt;Qe) 作为度量指标：

其中 p ( q t , q e ) p(q_t, q_e) p(qt,qe) 表示 Q t Q_t Qt和 Q e Q_e Qe 的联合概率分布， p ( q t ) p(q_t) p(qt) 和 p ( q e ) p(q_e) p(qe) 分别表示 Q t Q_t Qt 和 Q e Q_e Qe 的边缘概率分布。

然而，由于 Q e Q_e Qe 和 Q t Q_t Qt的未知高维特性，直接计算它们之间的互信息是不可行的。虽然先前的方法如MINE（Belghazi等，2018）和infoNCE（Van Den Oord, Vinyals等，2017）可以估计互信息的下界，但它们不适合用于控制最小化过程。借鉴vCLUB（Cheng等，2020），我们使用公式（4）来估计互信息的上界，并将其作为损失函数以减少语音特征与内容之间的相关性。

该公式包括条件概率 q ( y i ∣ x i ) q(y_i|x_i) q(yi∣xi) 和 q ( y j ∣ x i ) q(y_j|x_i) q(yj∣xi)，分别表示在第 i i i 个 Q t Q_t Qt 样本条件下第 i i i 个和第 j j j 个 Q e Q_e Qe 样本的概率。对数函数捕捉了在 Q t Q_t Qt 条件下 Q e Q_e Qe 之间的差异性，通过对所有成对组合求和，提供了 Q e Q_e Qe 和 Q t Q_t Qt 之间互信息上界的度量。

Speech-Caption Contrastive Learning (SCCL)

由于语音表示的高维性和冗余性，语音特征包含了丰富的信息，例如内容和背景噪声，其中只有一小部分与情感相关。为了减轻LLaMA处理语音特征的复杂性，我们的目标是让Q-Former提取与语音情感描述高度相关的特征，从而弥合语音特征与文本模态之间的差距。如图3所示，我们的目标是最小化 Q e Q_e Qe 和C-Embedding Q c Q_c Qc 之间的距离，促使Q-Former提取更多与情感相关的特征，并逐步接近文本模态。受CLAP（Wu等，2023）的启发，我们采用对比学习方法准确表示不同语音样本的 Q e Q_e Qe之间的距离，确保具有相似情感的语音样本的 Q e Q_e Qe 距离更近，而情感不同的语音样本的 Q e Q_e Qe 距离更远。

为了减轻对比学习中负样本中相似情感的影响，我们根据人工标注的语音情感标签将数据集划分为 N N N 个不同的类别。这确保了不同类别之间的语音情感描述存在显著差异，从而增强了模型在学习过程中的判别能力。在每个训练步骤中，我们从 N N N 个类别中分别选择 K K K 个语音-描述对，确保对于每个 Q e Q_e Qe（称为 e i e_i ei），有1个对应的 Q c Q_c Qc（称为 d i d_i di）， ( K − 1 ) (K-1) (K−1) 个具有相似情感的 Q c Q_c Qc（称为 p i p_i pi），以及 ( N K − K ) (NK-K) (NK−K) 个具有不同情感的 Q c Q_c Qc（称为 u i u_i ui）。我们选择使用余弦相似度 S S S) 来度量 Q e Q_e Qe 和 Q c Q_c Qc 之间的距离。为了增强对比学习的效果，我们设计了如下训练方法：

其中权重系数 w 1 w_1 w1、 w 2 w_2 w2 和 w 3 w_3 w3控制损失函数中每一项的贡献。阈值 m m m是用于控制语音特征 Q e Q_e Qe 与不相关的语音情感描述特征 Q c Q_c Qc之间距离的边界值。

Training Process

为了增强LLaMA生成语音情感描述的能力，我们设计了一个两阶段的训练过程。第一阶段压缩HuBERT提取的语音特征以获得与情感相关的属性，而第二阶段将这些特征与LLaMA的表示空间对齐。

在第一训练阶段，我们结合STMIL（语音-转录互信息学习）和SCCL（语音-描述对比学习）进行协同训练，如图3所示，同时保持HuBERT模型冻结。受BLIP-2的启发，我们使用 B E R T b a s e BERT_{base} BERTbase（Devlin等，2019）的预训练参数初始化Q-Former。具体来说，训练损失函数为：

其中权重系数 w T 1 w_{T1} wT1 和 w T 2 w_{T2} wT2 分别控制STMIL和SCCL的贡献。

在第二训练阶段，我们对Q-Former和投影层进行微调，以有效地将Q-Former提取的语音特征整合到LLaMA中。同时，LLaMA和HuBERT的参数保持冻结。我们在L-Embedding前插入一个"BOS"标记，以与推理格式对齐。为了提高SECap的泛化能力，我们设计了30个语义相似的句子，每个句子都指示"用一句中文描述说话者的情感"。在训练过程中，我们随机选择一个句子并将其连接到L-Embedding之后。随后，我们在提示词后附加人工标注的语音描述 C C C，并采用教师强制（teacher-forcing）方法使LLaMA生成描述 C ^ \hat{C} C^。然后采用交叉熵损失（CELoss）作为训练目标：

Dataset

由于缺乏公开的语音情感描述（SEC）数据集，我们使用了一个内部数据集，称为EMOSpeech。EMOSpeech数据集由5名女性和2名男性说话者组成，总计41.6小时的语音，覆盖30526个句子，采样率为24kHz。EMOSpeech中的每段语音都有三到五条由不同标注者提供的人工标注的语音情感描述和语音情感标签，以及其对应的转录文本。

在标注过程中，我们首先使用50个样本音频片段供独立标注者进行标注，并召开讨论会，让标注者审查标注结果并根据集体意见制定标准化规则。标注过程分为三个层次：用一个词识别整体情感、描述情感强度，以及提供综合考虑情感、音量和语速的完整句子。在这些指导原则下，标注者对数据集进行了一致的标注。为确保标注质量，我们通过每100个片段中随机选择5个片段供其他标注者审查的方式进行一致性检查，从而在整个数据集构建过程中保持高标准。在构建EMOSpeech数据集后，我们随机选择600个句子用于测试，600个句子用于验证，其余29,326个句子用于训练。

Evaluation Metric

由于目前尚无评估语音情感描述的方法，我们根据语音情感描述任务的性质，设计了客观和主观的评估方法。

Objective Evaluation

在本研究中，我们首先采用了自动音频字幕（AAC）任务的客观评估指标，包括BLEU1（Papineni等，2002）、BLEU4、METEOR（Banerjee和Lavie，2005）、ROUGEl（Lin，2004）、CIDEr（Wang和Chan，2019）以及SPICE（Anderson等，2016）。然而，这些指标主要侧重于词汇层面的匹配。为了在句子层面更有效地评估两个中文情感描述之间的相似性，我们结合上述标准，采用了句子相似性评估指标。第一个模型（Ming，2022）基于MACBERT（Cui等，2021）并在中文STS-B（Cer等，2017）上进行训练，而第二个模型（Reimers和Gurevych，2019）则在腾讯云上进行了微调。它们的评估指标分别表示为SIM1和SIM2。

Subjective Evaluation

在主观评分方法中，我们制定了一个三阶段的评分标准，以减少由于评估者对情感理解不一致而导致的变异性。第一步是确定生成的句子是否描述了情感。第二步评估生成的句子在概括为情感时是否与语音内容相匹配。第三步则评估生成的句子在情感强度方面是否与语音内容一致。

具体而言，我们设计了一种类似于语音合成系统中使用的平均意见得分（MOS）的评分方法，评分范围从1到5，其中1代表最差，5代表最佳。

Results and Analysis

Experiment Setup

我们的实验仅在EMOSpeech数据集上进行。我们选择在10k小时WenetSpeech（Zhang等，2022）L子集上预训练的HuBERT-large模型作为音频编码器。由于原始LLaMA在理解中文方面的能力有限，我们选择了一个使用中文数据集微调的增强版LLaMA（Cui, Yang, and Yao 2023）作为文本解码器。

Performance Analysis

本实验旨在证明SECap的有效性。鉴于语音内容对情感的影响，我们将转录文本作为额外输入，并设计了多个对比组以进行深入分析。具体而言，在引入转录文本时，我们要么使用通过LLaMA分词器处理的原始转录文本，要么将通过投影层处理的T-Embedding作为额外输入，并将其连接在BOS Emb和L-Embedding之间。随后，我们附加Prompt Emb并将其输入LLaMA。在某些对比组中，不使用语音特征，而是将前一步处理的转录文本直接连接在BOS Emb和Prompt Emb之间。

Objective Evaluation

表2展示了在各种实验中的大多数指标上的一致趋势。因此，我们的分析将主要集中在从两个中文句子相似性模型中获得的见解上。

如表2所示，当仅使用语音特征时，所提出的SECap（#6）在所有客观指标上均超过了HTSAT-BART（#1）基线，这表明其能够生成比HTSAT-BART模型更自然、更接近人类语音情感描述的内容。

与原始转录文本（#2）相比，使用T-Embedding（#3）使SIM值分别提高了16.66%和178.11%。由于LLaMA之前未在EMOSpeech数据集上进行训练，它缺乏对该数据集描述的先前知识，导致输出空间不受约束。然而，T-Embedding施加了更大的约束，提取了更多与情感相关的特征，从而生成了相对准确的语音情感描述。

仅使用Q-Embedding（#6）时，与仅依赖T-Embedding（#3）相比，SIM值分别提高了9.18%和13.29%。由于相同的句子可以传达不同的情感，仅依赖语音内容（即转录文本）可能不足以反映语音情感，而语音信号能更好地表示语音情感。在引入Q-Embedding和原始转录文本（#4）后，与仅使用Q-Embedding（#6）相比，SIM值相对下降了3.77%和4.27%。然而，将原始转录文本（#4）替换为T-Embedding（#5）后，SIM值相对提高了0.61%和3.73%。尽管有所增加，SIM值仍低于仅使用Q-Embedding（#6）时的值。

与纯文本模态一致，T-Embedding在从转录文本中提取情感特征方面优于原始转录文本，为LLaMA提供了更大的约束，同时减少了与Q-Embedding的冲突。然而，将音频和文本模态同时整合到模型中可能会增加LLaMA处理信息的难度，因为文本和音频可能包含相似、无关甚至矛盾的信息。因此，LLaMA必须平衡这些特征，这可能会阻碍其充分利用两种模态信息的能力，并影响模型对语音情感的评估。

Subjective Evaluation

在主观实验中，我们随机选择了50个句子作为测试集。我们应用表2中列出的所有方法生成相应的语音情感描述。为了进行更全面的比较，我们还加入了人工标注的语音情感标签（Human Label）以及由HuggingFace上一个具有竞争力的预训练中文SER模型识别的情感类别（SER Model Label）。我们要求评估者根据评估指标部分提供的主观评估细节对这九种文本进行评分。15名评估者参与了测试，结果如图4所示。

从图4中可以看出，人工标注的语音情感描述优于人工标注的语音情感标签和SER模型标签。这一结果与SEC任务的目标一致，即在单个句子中更全面、准确地表达情感。值得注意的是，最佳的SECap模型表现优于人工标注的语音情感标签，并与人工标注的语音情感描述相当。

此外，图4显示，仅使用原始转录文本时，SECap的表现并不理想。然而，其他SECap输入方法在主观评估指标上优于人工标注的情感标签和基线，表明SECap能够生成被认为更能代表情感的合适语音情感描述。然而，与仅使用Q-Embedding相比，同时使用Q-Embedding和T-Embedding作为输入在主观评估中产生了更好的结果。

我们认为，依赖于预定义规则的客观指标可能与基于人类感知和理解的主观评估存在差异。这种差异可能源于评估者关注复杂细节，如情感表达的自然性和上下文信息，这些细节对客观指标来说难以捕捉。此外，我们观察到评估者最初关注的是语音内容。在内容与情感冲突的情况下，评估者倾向于给与内容相关的描述打更高的分数。例如，以平淡的语气说出"我今天感觉糟透了"时，仅使用语音嵌入可能会生成描述平淡语气的描述，而结合文本嵌入则可能生成结合悲伤和平淡情感的描述。

Ablation Study on Different Model Components

本实验旨在探讨不同模型组件对生成语音情感描述的影响。考虑到HTSAT-BART与SECap在音频编码器、Bridge-Net和文本解码器方面均存在差异，为了更好地分析每个组件，我们分别使用不同的音频编码器、文本解码器和Bridge-Net构建模型。在之前的实验中，我们发现尽管实验不同，但两个文本相似性模型表现出相同的趋势。因此，在本实验以及后续实验中，我们仅使用评估指标部分介绍的第一个文本相似性模型来评估客观指标。

表3显示，通过将文本解码器替换为LLaMA并保留音频编码器，HTSAT-BART的SIM值提高了8.92%，表明LLaMA在文本生成能力上优于BART。同样，在保持文本解码器不变的情况下，将音频编码器替换为HuBERT使SIM值提高了7.26%，表明HuBERT在语音特征提取方面比HTSAT更具优势。同时替换这两个组件使SIM值提高了15.10%。此外，将线性层替换为Q-Former显著提升了高质量语音情感描述的生成能力，同时SIM值提高了4.85%。

显然，与HTSAT相比，HuBERT更适合语音特征提取，而LLaMA在文本理解和生成能力上优于BART。通过使用Q-Former进一步提取语音特征，能够将与情感更相关的语音特征传递给LLaMA，从而生成更准确的语音情感描述。

Comparison of Training Methods

本实验旨在探讨Q-Former的不同训练方法对生成语音情感描述的影响。在保持音频编码器为HuBERT、文本解码器为LLaMA的情况下，我们进行了一系列对比实验，包括在第一训练阶段是否使用STMIL或SCCL，以及在第二训练阶段是否冻结Q-Former。

表4显示，在第一训练阶段单独使用STMIL或SCCL时，与省略此阶段相比，SIM值分别提高了2.17%和3.14%，这表明解耦内容信息或提取额外的情感相关语音特征可以提高描述质量。此外，同时使用这两种方法使SIM值提高了6.92%。如果不使用STMIL和SCCL，Q-Former缺乏对语音特征的深入理解，且有限的EMOSpeech数据集可能导致过拟合。与单独使用其中一种方法相比，同时使用STMIL和SCCL使SIM值分别提高了4.65%和3.67%，这表明同时使用这两种方法可以增强语音特征提取能力，从而生成更精确的语音情感描述。

在完成初始训练阶段后，冻结Q-Former并仅训练投影层时，与未冻结Q-Former相比，SIM值下降了19.50%。由于LLaMA未参与指导Q-Former的训练，提取的特征可能与LLaMA的输入不完全匹配，而投影层的适应性无法弥补这种不匹配。

Conclusion

为了更好地表示语音情感，我们引入了一项创新任务，称为语音情感描述（SEC），该任务使用自然语言描述而非单一标签来表征语音情感。我们提出的模型SECap集成了基于HuBERT的音频编码器、基于LLaMA的文本解码器和基于Q-Former的Bridge-Net。Q-Former通过语音-转录互信息学习（STMIL）有效解耦语音特征和语音内容信息，同时通过语音-描述对比学习（SCCL）提取更多与情感相关的语音特征。令人印象深刻的是，SECap能够生成高质量的语音情感描述，其表现与人工标注者相当。这一开创性任务和方法为语音情感理解提供了新的视角，促进了分析和解释语音情感表达的更全面方法。