用于抑郁分析的行为原语光谱表示
关键词:基于视频的自动抑郁分析(ADA),人类行为原语,傅里叶变换,频谱表示,时频分析,卷积神经网络
摘要
传统的抑郁症临床诊断方法具有主观性、复杂性,且需要临床医生的大量参与。近年来,自动抑郁症分析系统的发展为未来提供了可能,即通过客观、可重复且易于获取的诊断工具来弥补这些不足,从而帮助医疗专业人员开展工作。然而,这类工具的开发仍面临诸多障碍。1.现有的自动抑郁症分析算法基于非常短暂的序列片段进行预测,有时短至一帧。2.现有方法未考虑所测量行为的上下文。本文提出为基于视频 的自动抑郁症分析提取多尺度视频级特征 。我们提出使用自动检测到的人类行为原语 作为每帧的低维描述符。我们还提出了两种新颖的频谱表示方法,即频谱热图和频谱向量,用于表示表达性行为的视频级多尺度时间动态。构建的频谱表示被输入卷积神经网络(CNNs)和人工神经网络(ANNs)进行抑郁症分析。我们在AVEC 2013和AVEC 2014基准数据集上进行了实验,以研究访谈任务对抑郁症分析的影响。除了在抑郁症严重程度估计方面达到最先进水平外,我们还表明用户执行的任务是有影响的:任务组合的融合能达到最高准确率,较长的任务比较短的任务更具信息量,但存在一定限度。
引言INTRODUCTION
背景 :抑郁症是一种精神疾病,会对人产生负面影响,甚至自杀。及时且准确的诊断至关重要。而标准的临床抑郁症评估技术主观性强、耗时较长,且难以获取相关医疗资源。自动的客观评估方法可用于辅助监测和诊断。心理学证据表明,抑郁症具有与头部运动 、面部表情 和凝视 相关的非言语客观线索,这些线索可以在无需临床医生干预的情况下被自动检测和分析。基于此类线索构建自动系统,不仅能够提供客观、可重复的评估,还有助于缓解成本、及时提供治疗。目前大多数基于视觉的ADA方法均基于访谈过程中参与者的非言语面部行为进行预测。
研究问题 :针对实际应用中3个挑战。
1 、访谈视频的长度通常变化较大,最长视频的时长有时是最短视频的数倍。然而,大多数机器学习模型需要固定大小的输入。流行方案是用简单平均、线性回归或长短期记忆网络(LSTMs)融合每帧或短视频片段的预测结果。然而,除了LSTM外的方法忽略了参与者的长时行为模式,而长时行为模式可能能更好预测抑郁情况,因为从单帧或短片段中提取的行为可能是模糊多因的,例如,微笑可能是快乐也可能是无助。此外,不同抑郁程度的受试者可能表达出相同的行为。因此,完整视频预测的抑郁水平比短片段更可靠 。此外,一些研究通过融合帧级或段级表示来构建视频级描述符。使用插值、动态时间规整(DTW)等方法,将视频的每帧表示(可为多通道时间序列数据)重采样到固定长度。然而,这种方法会扭曲原始信号 。为了避免失真,其他研究采用了固定大小的直方图或其他统计量来总结表示的分布。通过计算特征的统计量,使用高斯混合模型(GMM)或费舍尔向量等方法生成视频级描述符。尽管这些方法能够总结无失真的信息,但在生成统计量后,段/帧之间的时序关系(如事件顺序)会丢失 。 研究问题 1 → 研究问题1\over{\to} →研究问题1如何将不同视频中的信息编码为固定大小的视频表示,同时尽可能保留相关的信息 。
2 、尽管已有研究表明面部表情、头部运动等特征对抑郁分析具有价值,但尚不清楚如何最佳地编码此类特征的时间模式。即保留多尺度时间动态,近期研究通常将每个视频分割成一系列短片段(长度从5帧到几秒不等),然后从中提取时间特征。然而,决定时间尺度的片段最优时长难以确定。此类方法仅编码单一尺度或少量时间尺度,忽略了长期时间动态。 研究问题 2 → 研究问题2\over{\to} →研究问题2提取此类特征以尽可能保留时间信息的最优方式是什么。特别是能够对从短期到长期的多个时间尺度上的时间模式进行编码的特征描述符。
3 、观察人们所处的情境。抑郁访谈通常由多个任务组成,例如阅读段落、回答问题等。因此,不同的任务会引发参与者不同的反应,从而产生不同的面部行为。目前尚无研究系统探讨如何最优化地利用特定情境下的行为进行抑郁分析。 研究问题 3 → 研究问题3\over{\to} →研究问题3如何学习这种特定于情境的行为并将其结合用于抑郁分析。本文通过研究多项用户任务的影响以及最有前景任务的持续时间影响,对情境进行系统性探索。
本文旨在解决上述三个挑战。我们的方法采用多种客观、可被人类和机器轻松解释的视觉及非语言人类行为属性,即面部动作单元(AUs)、头部姿态和凝视方向 ,我们将这些称为行为原语 。通过连接这些逐帧描述符,我们获得一个多通道时间序列 ,用于描述视觉表达的人类行为信号。为获取多尺度、与长度无关的表示,我们提出了两种简单的频谱表示方法以编码整个视频的人类行为信号。所提出的频谱表示在频域中包含视频级行为信息,其中每个频率分量代表一种独特的时间尺度动态。我们进一步采用两种频率对齐方法,无论输入视频长度如何变化,均生成大小和频率覆盖范围相等的频谱表示。最后,我们将频谱表示输入标准机器学习模型(ANN和CNN),使从多个通道获取的人类行为动态能够联合学习,以预测抑郁严重程度。为探究第三个挑战,我们开展了一系列实验,比较基准数据集中一系列任务的抑郁预测结果,以及不同融合策略(即输入级融合、特征级融合和决策级融合)的实现结果。所提方法的概览如图1所示。
本文的主要新颖性和贡献如下:
1)我们提出了一种基于傅里叶变换的新方法,该方法将长且长度可变的时间序列数据转换为短且固定大小的频谱表示,这些表示可以轻松与标准机器学习技术结合使用。2) 所提出的频谱表示编码了人类行为的多尺度视频级时间动态,已被证明对自动抑郁分析有用。
-
我们研究了每个自动检测到的行为原语对抑郁分析的影响,发现AU4、AU12、AU15和AU17对于估计抑郁严重程度是有用的,这支持了现有证据。
-
我们研究了访谈内容对抑郁分析的影响,发现不同的访谈任务可能导致完全不同的抑郁预测结果。
5)我们在AVEC 2013和AVEC 2014数据集上评估所提出的方法时,在抑郁症严重程度估计方面取得了最先进的结果。
相关工作
-
非言语线索与抑郁的关系
抑郁通常伴随着积极面部表情的减少,整体面部表现力降低以及头部运动减少。Ellgring等人指出抑郁不仅与悲伤的面部表情相关,还与"情感体验缺失所对应的完全缺乏面部表情"有关。关于负面面部表情,研究者存在不同结论。有人认为抑郁以负面表情增加为特征;有人发现抑郁个体更可能出现负面表情减少的情况。因此,多项研究尝试将此类非言语线索应用于抑郁识别。Cohn等人探讨了利用音频和视觉非言语线索进行抑郁分类的可行性。他们分别将三种不同的非言语行为特征------即人工标注的面部动作单元(AUs)、主动外观模型(AAM)特征和语音韵律特征------输入支持向量机(SVM)。结果显示,所有特征均对检测抑郁具有信息价值,其中面部动作单元的准确率最高,达到88%。上述发现表明,自动面部行为分析可用于自动抑郁分析。Girard等人专门研究了抑郁与非言语面部行为(如动作单元和头部姿态)之间的关系,采用了手动和自动系统进行分析。两种系统的结果显示,重度抑郁参与者表现出更少的亲和性面部表情(动作单元12和15)、更多非亲和性面部表情(动作单元14)以及头部运动减弱。
-
自动抑郁分析
- 手工特征 方法
在过去十年中,自动抑郁分析受到了广泛关注,并组织了一系列挑战赛。早期的工作通常使用传统的机器学习模型(如支持向量机回归(SVR)、决策树、逻辑回归等)从手工设计的特征(如局部二值模式(LBP)、低级描述符(LLD)、方向梯度直方图(HOG)等)中预测抑郁。
例如,1. Meng等人提取了LBP和EOH作为视觉特征,LLD作为音频特征,并应用运动历史直方图(MHH)从短视频片段中提取动态信息。这些特征通过偏最小二乘(PLS)回归融合在一起以预测抑郁。然后通过线性意见池组合所有片段的决策来做出视频级决策。2. Gupta等人使用LBP-TOP来总结短期时间信息,并将其与运动特征和面部标志点相结合。然后使用选定的特征训练SVR模型。3.另一种基于手工特征与传统机器学习模型结合的典型方法将LBPTOP特征扩展到MRLBP-TOP以提取短期动态,然后应用费舍尔向量进行聚合。4.Williamson等人(AVEC 2013、2014获胜者)基于音频数据,利用共振峰频率和delta-mel-倒谱来表示声道形状和动态的潜在变化。之后使用主成分分析(PCA)获得一个11维特征向量(共振峰域的五个主成分和delta-mel-倒谱域的六个主成分)。最后,引入了高斯阶梯模型(一种高斯混合模型(GMM)的扩展)作为回归模型。5.Cummins等人提出另一种基于GMM的方法,采用GMM-UBM模型来学习包含音频和视觉信息的特征。6.Jain等人提取了LBP-TOP、HOG、HOF和MBH特征,并使用GMM(费舍尔向量)融合来自多个视频片段的特征。6.Nasir等人采用的另一种基于GMM的模型中使用i-vector学习TECC和MFCC等音频特征。 - 深度学习 方法
由于深度学习的最新进展,大多数当前方法基于卷积神经网络(CNNs)和循环神经网络(RNNs)。1.Ma等人提出了DeepAudioNet用于基于音频的抑郁分类,该方法结合了CNN与LSTMs。大多数基于视觉的方法将视频分成若干等长片段,并独立地从每个片段中提取深度学习特征。2.Al Jazaery等人采用C3D网络从短视频片段中提取与短期动态相关的抑郁特征。然后将这些特征输入RNN进行片段级预测。最终平均所有片段的预测结果做出预测。3.Melo等人使用3D CNNs提出了类似的方法。4.为了识别抑郁人群的显著面部区域,Zhou等人提出了DepressNet,用于学习带有视觉解释的抑郁表示。在该方法中,对抑郁最具信息量的面部区域被突出显示,并用于在帧级预测抑郁。视频级抑郁评分通过平均所有帧的评分计算得出。5. 最近,Haque等人采用因果卷积网络从音频、文本和3D面部标志点中学习以预测抑郁严重程度。
除了直接从图像学习抑郁外,一些方法尝试从更高层次的视频表示中学习抑郁严重程度。1.Yang等人提出在每个视频中选择若干等长片段,以平衡抑郁和非抑郁训练样本的数量。他们还提出了一种位移范围直方图(HDR)方法,用于记录视频片段中面部标志点的动态。他们使用CNNs从手工设计的音频和视频描述符中学习深度特征,最终决策通过使用决策树融合音频、视频和文本特征的预测结果得出。2.为了直接从可变长度视频预测抑郁,我们之前的工作使用若干人类行为原语表示每一帧,将视频简化为多通道时间序列数据。在本文中,除了应用傅里叶变换将多通道时间序列数据转换到频域外,我们进一步解释了如何对齐转换后的谱信号的频率,以使用固定的一组频率表示任何视频。此外,本文还研究了行为和任务内容对抑郁分析的影响。
- 手工特征 方法
方法
本节描述了一种新颖的基于视频的自动抑郁分析方法,该方法能够从变长视频中提取固定大小的描述符,并对多尺度时间信息进行编码。
第3.1节提取一组自动检测到的人类行为原语来表示视频,从而将高维视频显著降维为低维多通道时间序列信号。
第3.2节中提出了两种频谱表示作为多通道行为信号的视频级描述符,这些描述符不仅能够将任意长度的时间序列数据编码为固定大小的表示,还能保留原始时间序列数据中的多尺度时间信息。
第3.3节展示了如何将生成的频谱表示应用于抑郁分析。
与其它近期方法相比,我们方法的主要优势在于:1)它可以将长且变长的时间序列数据转换为短且固定大小的表示,从而能够利用整个视频的信息进行分析。2)我们的表示包含多尺度视频级时间信息。

人类行为原语提取
为了构建视频级描述符,首要任务是降低维度。当前研究要么提取手工设计特征,要么提取深度学习特征来表示每一帧或短视频片段。传统的手工设计特征(HOG、LBP等)并未专门针对面部行为应用而设计,因此并非最优表示方法。另一方面非言语视觉线索的作用启发我们提出使用面部行为属性 作为逐帧描述符,包括动作单元(AUs)、凝视方向和头部姿态 。具体而言,我们使用OpenFace 2.0自动检测17种不同动作单元的强度、凝视方向和头部姿态,从而为每个视频生成29通道的人类行为时间序列数据(其中17个对应动作单元,每个眼睛的凝视方向对应6个,头部姿态对应6个)。与先前使用的手工设计和深度学习特征相比,这些人类行为描述符具有以下优势:1.更具可解释性。其含义明确且维度较低;2.提取过程具有模块化特性。标准的面部属性检测软件(通常在大型数据库上训练)可用于不同场景中的不同人员;3.客观。其值与被试身份无关,可防止最终预测受到性别、年龄、种族等因素相关偏见的影响;4.所提出的行为描述符的维度(31维)远低于传统手工设计特征和深度学习表示。
人类行为原语的频谱表示
为了构建多通道时间序列数据的频谱表示,我们首先将每个时间序列转换到频域。我们进一步提出了两种频率对齐方法,使得每个视频(可能长度不同)的频谱表示对应相同的频率。最后,我们还提出了两种将所有行为原语的频谱表示组合起来的方法,以生成给定视频的单一表示。本文将 f c m ( n ) f_c^m(n) fcm(n)定义为第m个视频中的n帧第c个行为时间序列信号。
-
编码多尺度视频级动态
鉴于抑郁会导致行为变化,而这些变化可由时间序列信号表示,因此时间模式具有重要意义。抑郁会引起长期的行为变化,因此我们旨在提取能够编码包括长期时间信息在内的时序模式的视频级特征。我们使用傅里叶变换 (FT)将每个行为原语所代表的时间序列信号转换到频域。得到的频谱表示是将原始时间序列分解为其构成频率的过程。设 f ( x ) f(x) f(x)为对应于行为原语的时间序列信号,则傅里叶变换可将其转换为频谱表示 F ( ω ) F(ω) F(ω),其中ω是常数,F函数为复函数。
F ( ω ) = ∫ − ∞ ∞ f ( x ) e − 2 π i x w N d x F(ω)=\int_{-\infty}^\infty f(x)e^{-\frac{2\pi ixw}{N}}dx F(ω)=∫−∞∞f(x)e−N2πixwdx(具体公式可见文章)每个视频由一系列帧组成,从而为每个行为原语生成一个离散的时间序列信号。因此,我们对行为信号 f c ( n ) f_c(n) fc(n)应用离散傅里叶变换(DFT)得到 F c ( ω ) F_c(\omega) Fc(ω)
每个频率分量都是由 f c ( n ) f_c(n) fc(n)的所有帧计算得出的。也就是说,频谱信号中的每个分量都总结了整个视频中存在的单一频率信息。因此,频谱信号包含对应于W个频率的信息,这些频率由 2 π ω N , w = 0 , 1 , 2 , . . . , W − 1 \frac{2\pi ω}{N}, w=0, 1, 2, ..., W-1 N2πω,w=0,1,2,...,W−1给出。这些分量编码不同类型的行为动态,即高频分量代表行为的急剧变化,低频分量代表行为的渐进变化 。因此,生成的频谱信号可以被认为总结了整个视频的多尺度时间信息。在这里,我们将 F ( ω ) F(ω) F(ω)中离散频率分量的数量W设置为与N相同,以便完全总结离散时间序列数据 f ( x ) f(x) f(x)中包含的信息(众所周知,如果W=N,则 f ( x ) f(x) f(x)可以从 F ( ω ) F(ω) F(ω)完全重建)。
-
频率对齐
如上所述,N帧的时间序列行为信号可以转换为具有W= N个频率分量的频谱信号。因此,不同长度视频的频谱信号将具有不同数量的分量,这又会导致特征表示的维度各不相同。为了使它们相等,我们首先注意到时间序列数据的频谱信号始终以其中心频率W/2对称,即如果 F ( w ) = R e ( w ) + i I m ( w ) F(w)=Re(w)+iIm(w) F(w)=Re(w)+iIm(w)且 F ( W − w ) = R e ( W − w ) + i I m ( W − w ) F(W-w)=Re(W-w)+iIm(W-w) F(W−w)=Re(W−w)+iIm(W−w),那么 R e ( w ) = R e ( W − w ) ; I m ( w ) = I m ( W − w ) Re(w)=Re(W-w);Im(w)=Im(W-w) Re(w)=Re(W−w);Im(w)=Im(W−w)。这意味着频谱信号的前W/2个分量可以完全表示 f ( n ) f(n) f(n)中包含的信息。此外,由于面部动作是连续平滑的过程,高频信息通常代表由例如错误检测的面部、面部点定位误差或AU强度估计等引起的噪声或异常值。如图所示,在实际应用中,在去除高频信息后,简化的频谱信号仍能很好地表示原始时间序列数据,因为对频谱信号应用逆DFT可以恢复原始时间序列数据中存在的大部分信息。

受此启发,我们的方法仅保留谱信号的前W/2个分量。随后,还去除了对应高频的分量。由于我们的目标是为可变长度的时间序列数据生成相同大小的视频级谱表示,人们可能会考虑为所有视频保留谱信号中前K个最低频率的分量,其中K < W/2。然而,不同长度视频中的第w个分量所代表的频率是不同的。考虑两个长度分别为 N 1 N₁ N1和 N 2 N₂ N2的时间序列信号 f 1 ( n ) f₁(n) f1(n)和 f 2 ( n ) f₂(n) f2(n),它们对应的谱表示分别为 F 1 ( w ) F₁(w) F1(w)和 F 2 ( w ) F₂(w) F2(w)。如果 N 1 ≠ N 2 N₁≠N₂ N1=N2,谱信号 F 1 ( w ) F₁(w) F1(w)的第w个分量( 0 < w < N 1 / 2 ; N 2 / 2 0 < w < N₁/2;N₂/2 0<w<N1/2;N2/2)表示频率 2 π w / N 1 2πw/N₁ 2πw/N1处的DFT值,而谱信号F₂(w)的第w个分量表示频率 2 π w / N 2 2πw/N₂ 2πw/N2处的DFT值。显然, 2 π w / N 1 ≠ 2 π w / N 2 2πw/N₁≠2πw/N₂ 2πw/N1=2πw/N2,因此谱信号 F 1 ( w ) F₁(w) F1(w)和 F 2 ( w ) F₂(w) F2(w)的第w个分量并不代表相同的频率。为了解决上述频率错位问题,我们提出了以下两种解决方案:
方案一:零填充 。零填充是一种常用方法,常用于离散时间序列进行傅里叶变换后提高频率分辨率。在此方法中,向时间序列数据追加零以增加其长度,从而使该时间序列数据的离散傅里叶变换具有更多的频率分量。特别是,谱信号的频率分辨率W等于原始时间序列数据中的帧数N。通过零填充,在原始时间序列末尾添加 N a d d N_{add} Nadd个零,创建一个长度为 N + N a d d N+N_{add} N+Nadd的新时间序列,新时间序列的谱信号将具有 W + N a d d W+N_{add} W+Nadd个频率分量。详见文献。在本文中,进行零填充使所有行为信号的长度与最长视频相同。因此,所有时间序列行为信号的谱信号将具有相同的分辨率。通过进一步仅选择每个谱信号的前K个分量,可以显著降低维度。
方案二 :尽管零填充可以提高谱信号的频率分辨率,但新增频率分量的值是估计值。此外,通过零填充扩展的多通道面部行为时间序列信号在填充部分为零信号。这种策略假设添加帧中的面部状态是中性的且保持不变,这并不正确。因此,扩展后的多通道时间序列信号无法准确代表相应人员的面部行为模式,且新增频率分量的值仅为估计值。为避免此问题,我们提出从每个视频获得的谱信号中选择k个公共频率,从变长时间序列数据中提取固定大小的谱信号。在这种情况下,所选k个频率的值来自原始信号而非扩展信号。因此,生成表示中的每个分量代表相应频率的准确值而非估计值。需要注意的是,该方法的优势是以谱信号下采样为代价,从而丢失部分信息,但依旧可行(见图2、3)。假设存在M个对应于M个变长视频的时间序列信号 f 1 , f 2 , . . . , f M f^1, f^2, ..., f^M f1,f2,...,fM,所提出的解决方案遵循以下步骤:
1)选择一个固定的频率分辨率R表示每个时间序列数据的频率分量数量,然后缩短时间序列,将原始时间序列信号 f m ( n ) f^m(n) fm(n)的总帧数从 N m N_m Nm减少到 N m − ( N m mod R ) N_m - (N_m\text{ mod }R) Nm−(Nm mod R)帧,帧数是R的倍数,从而得到稍短的时间序列信号 S ( f m ( n ) ) S(f^m(n)) S(fm(n))。在实际操作中,我们从每个视频中移除前 ( N m mod R ) 2 \frac{(N_m\text{ mod }R)}{2} 2(Nm mod R)和后 ( N m mod R ) 2 \frac{(N_m\text{ mod }R)}{2} 2(Nm mod R)帧。
基于任务的实验中 N m = 100 Nm=100 Nm=100,AVEC 2013实验中 N m = 500 Nm=500 Nm=500,这意味着移除的视频内容最大长度分别小于4秒和17秒(在我们的实验中,平均移除长度分别为1.2秒和6.6秒,而视频的平均完整长度约为189秒和961秒)。
2)通过DFT将时间序列 S ( f m ( n ) ) S(f^m(n)) S(fm(n))转换为谱信号 S ( F m ( w ) ) S(F^m(w)) S(Fm(w))。由于频率分量的数量等于帧数, S ( F m ( w ) ) S(F^m(w)) S(Fm(w))中的频率分量数量 W m = t m ∗ R ; m = 1 , 2 , . . . , M W_m = t_m * R;m = 1, 2, ..., M Wm=tm∗R;m=1,2,...,M也是R的倍数。
3)由于每个频谱信号中的频率数量是R的倍数,它们都包含相同的R个分量,其频率 n f ( m ) = 2 π w m ( r ) / W m = 2 π r × t m / ( R × t m ) = 2 π r / R n_f(m)=2\pi w_m(r)/W_m=2\pi r\times t_m/(R\times t_m)=2\pi r/R nf(m)=2πwm(r)/Wm=2πr×tm/(R×tm)=2πr/R
其中r=0,1,2,...(R-1)。显然,所选的R个频率与 t m t_m tm无关,这些R个频率,即 2 π × 0 / R 、 2 π × 1 / R 、 2 π × 2 / R 、 ... 、 2 π × ( R − 1 ) / R 2\pi \times 0/R、2\pi \times 1/R、2\pi \times 2/R、...、2\pi \times (R-1)/R 2π×0/R、2π×1/R、2π×2/R、...、2π×(R−1)/R,被编码在所有频谱信号中。此过程如图4所示。最后,我们去除这些高频分量,仅保留前K个分量。
因此,解决方案2不仅能对变长时间序列信号的频率进行对齐,还能防止对齐后的频谱信号发生失真。
-
频谱表示
在获得与每个行为原语对应的对齐频谱信号后,我们通过幅度图和相位图 来构建固定大小的联合表示,以便所有行为频谱信号都能轻松用作标准机器学习技术的输入特征。
假设从每个帧中提取C个行为原语,我们为每个视频生成C个包含K个频率的对齐频谱信号。由于频谱信号中的值是复数,我们将每个复数转换为实域中的两个谱图:幅度图和相位图。幅度图通过公式 ∣ F c m ( w ) ∣ / N = R e c m ( w ) 2 + I m c m ( w ) 2 / N |F^m_c(w)|/N = \sqrt{Re^m_c(w)² + Im^m_c(w)²}/N ∣Fcm(w)∣/N=Recm(w)2+Imcm(w)2 /N计算;相位图通过 a r g ( F c m ( w ) ) = a r c t a n I m c m ( w ) R e c m ( w ) arg(F^m_c(w)) = arctan\frac{Im^m_c(w)}{Re^m_c(w)} arg(Fcm(w))=arctanRecm(w)Imcm(w)计算。这里, R e c m ( w ) 和 I m c m ( w ) Re^m_c(w) 和 Im^m_c(w) Recm(w)和Imcm(w) 分别是 F c m ( w ) F^m_c(w) Fcm(w)的实部和虚部。因此,从每个视频中可提取C个幅度图和C个相位图,所有图均包含K个频率。
我们进一步提出以下两种方法来融合这些图:1)光谱热图:一个 C×K 的多通道幅度谱图和一个 C×K 的多通道相位谱图。在这两种图中,每一行代表单个行为频谱信号的幅度图或相位图,每一列代表一个频率。在本文中,我们将两个谱图组合为一个双通道光谱热图。2)光谱向量:一个一维向量,通过串联所有行为原语的C×K幅度特征和C×K相位特征得到。因此,拼接后的向量包含C×K×2个分量。显然,这两种表示都编码了所有人类行为信号的信息。此外,它们的固定大小使其适用于标准机器学习技术。
学习频谱表示
受深度学习在多通道信号处理(包括音频特征处理)方面的最新进展启发,我们使用1-D卷积神经网络(CNN)从光谱热图中提取特征。其原因是热图中的行代表一组行为原语,它们没有自然的顺序(空间或其他顺序)。因此,标准的2-D CNN可能不适用。因此,所提出的光谱热图被视为多通道1-D数据,使用1-D CNN来学习抑郁预测网络。如图5a所示,CNN架构由三个Conv-Batch-ReLU块组成,每个块包含一个1-D卷积层、一个BL层和一个ReLU层。具体而言,每个卷积层分别包含128个核大小为7×1的滤波器、128个核大小为5×1的滤波器和64个核大小为3×1的滤波器。之后,采用通道级平均池化层从每个特征图中获得1-D特征,生成64维深度特征。最后,在平均池化层顶部使用一个具有64个输入神经元的全连接层、一个 dropout层(概率因子p=0.5)和一个具有一个神经元的输出层来预测抑郁水平。
对于光谱向量,我们使用文献中采用的人工神经网络(ANN)结构,包含四个全连接隐藏层,如图5b所示。光谱向量的维度通常远高于训练数据的数量(通常训练和验证样本少于200个)。这可能导致模型过拟合。为避免此问题,我们引入基于相关性的特征选择(CFS)来降低维度。CFS仅选择与输出变量高度相关但彼此不相关的特征,从而得到一组非常紧凑的有用特征。在我们的CFS实现中,我们采用皮尔逊线性相关系数来衡量相关性。考虑到训练标签的分布通常不平衡,我们将它们根据抑郁严重程度标签分为b类,并应用投票版的CFS来确定最终特征集。V-CFS的过程如算法(1)所述。
实验
在本节中,我们首先描述实验设置,包括数据集(4.1节)、预处理(4.2节)、模型训练细节(4.3节)以及性能指标(4.4节)。然后,我们描述交互行为研究,该研究探讨了行为原语(4.5.1节)、任务内容(4.5.2节)以及视频长度(4.5.3节)对抑郁分析的影响。频率选择用于对所有交互行为研究中的频率进行对齐。由于我们的方法包含两种频率对齐方法和两种频谱表示,因此我们在4.6节中还进行了消融研究以评估它们的性能。最后,我们还将最佳系统与最先进的方法(4.7节)进行比较。
- 数据集 :AVEC 2013、AVEC 2014音频-视觉抑郁语料库。
在AVEC 2016数据集中,每位参与者完成的任务有时会有所不同。由于行为分析具有情境依赖性,且为避免参与者完成任务的差异带来的负面影响,我们决定不使用AVEC 2016数据集进行实验。
AVEC 2013挑战赛使用的语料库包含150个音频-视觉片段。每个片段记录参与者完成一系列任务,包括持续元音发音、持续大声元音发音、持续微笑元音发音、边解决任务边大声说话、从1数到10等。所有参与者均为德语使用者,在视频录制期间,每位参与者均按相同顺序完成相同任务。这些视频的时长在20分钟到50分钟之间,平均为25分钟。
AVEC 2014挑战赛使用的音频-视觉抑郁语料库也包含150个音频-视觉片段。与AVEC 2013相比,AVEC 2014为每位参与者提供了两个对应不同任务(即Northwind和Freeform)的音频-视觉文件,导致每个视频的时长显著缩短。对于这两个数据集,视频的帧率为每秒30帧,分辨率为640×480,每个片段均标注有贝克抑郁量表(BDI II)评分,用于指示抑郁严重程度。这些评分范围从最低的0到最高的63。 - 预处理
采用OpenFace 2.0工具包来自动检测17种面部动作单元(AU)的强度(AU01、AU02、AU04、AU05、AU06、AU07、AU09、AU10、AU12、AU14、AU15、AU17、AU20、AU23、AU25、AU26和AU45)、6个注视方向描述符以及6个头部姿态描述符(详细说明见图7),从而得到一个29维的逐帧人类行为表示。对于未检测到人脸或检测到的人脸置信度较低的帧,不提取特征,并将此类帧从分析中移除。为了最小化参与者的身份影响,所有人类行为原始值均通过减去整个视频中计算出的对应中位数进行归一化处理。 - 训练细节
对于所有网络,使用Adam作为优化器,均方误差(MSE)作为损失函数。ANN和CNN的所有训练超参数(例如学习率、beta 1、beta 2等)均针对每个实验单独在验证集上进行优化。网络的其他超参数(例如层数和池化方法)则基于多次实验的平均验证结果进行选择,并在所有实验中保持一致。频谱特征提取、特征选择和ANN训练在MATLAB 2019中实现,而CNN则在PyTorch中实现。 - 性能指标
均方根误差(RMSE)、平均绝对误差(MAE)、皮尔逊相关系数(PCC)、一致性相关系数(CCC) - 交互行为研究
- 面部行为原语分析
本节评估了每种人类行为原语在抑郁症严重程度估计中的性能。为此,我们从每种行为原语的频谱向量中训练了单独的模型在AVEC 2013上测试。如图7所示,单独使用AU15、AU17、AU12、AU04和AU09强度的频谱向量均取得了不错的性能。其中AU15的结果最佳。头部姿态和凝视方向似乎对抑郁症的信息量较小,至少在单独使用时是这样,因为与这些相关的五个特征在CCC和RMSE中均排名靠后。我们还通过多种统计指标分析了四种最有信息量的AU(AU4、AU12、AU15和AU17)的时间激活模式。我们这样做是为了深入了解重度抑郁患者和非抑郁患者面部行为在人类可解释差异方面的一些见解。为此分析,我们将任务重新定义为二元分类问题:一组参与者BDI评分在29至63之间(根据BDI II问卷定义为重度抑郁),另一组参与者BDI评分在0至13之间(定义为轻度抑郁)。结果如表1所示,显示抑郁患者倾向于频繁表现出AU4激活。AU4激活的平均持续时间和强度在抑郁患者中也往往更高。另一方面,发现AU12的激活在抑郁患者中较少见。此外,他们更有可能出现较短的AU15激活和较长的AU17激活。这些结果表明,这些行为原语中包含大量可用于自动抑郁症分析的信息。图6基于上述结果可视化了基于视频的抑郁症分析中最重要的面部区域。表2报告了每种单一模态(如AUs、凝视和头部姿态)及其组合所取得的结果,显示在三种视觉线索中,当单独使用时AUs表现最佳,而融合所有线索获得了最佳结果。为了确定单个特征的附加值,我们进行了一项实验,使用图7中的结果,采用贪婪方法逐步增加特征数量来评估系统性能,即从单独使用时预测价值最高的特征开始,然后是前2个特征、前3个特征等。我们通过图8来说明使用更多行为原语的特征如何提高性能。尽管在某些点性能略有波动,但很明显,随着使用更多特征,性能仍在提高。请注意,这些结果仅表明自动检测行为与抑郁症之间的关系,这可能与使用人工标注行为信息的结果略有不同。这是因为我们用于行为检测的工具并非100%准确,检测误差可能会影响抑郁症分析结果。 - 基于任务的抑郁分析
AVEC 2013、2014数据集中的视频受试者是在完成一系列预设任务时被录制的。为探究不同任务对抑郁模型性能的影响,我们将AVEC 2013数据集的视频根据任务主题划分为若干片段,具体任务如下:任务1. 持续元音发音;任务2. 口头解决问题;任务3. 从1数到40;任务4. 大声朗读文本;任务5. 唱歌(该任务无参与者完成);任务6. 讲述童年故事;任务7. 根据图片讲述故事(采用主题统觉测验TAT)。每个视频中这些任务的顺序固定,依次为:1. 任务4,2. 任务3,3. 任务7,4. 任务6,5. 任务1,6. 任务2。为帮助其他研究者开展类似研究,我们已公开这些任务的时间戳及详细描述。1 对于AVEC 2014数据集,其使用的两个子任务已有独立视频。我们在两个数据集上开展了三类实验:1. 单任务实验,即分别使用每个任务的视频片段生成模型及性能结果;2. 所有任务的特征级融合,即通过拼接所有任务视频片段的特征获得视频级特征向量,并经V-CFS选择;3. 所有任务的决策级融合,即通过线性回归结合所有任务的预测结果得到最终预测。此外,我们还报告了不考虑任务边界的AVEC 2013数据集完整视频的性能。需注意的是,仅35个训练视频、32个验证视频和39个测试视频包含所有任务。本小节的结果仅基于包含所有任务的这部分视频进行报告。
所有实验结果如图9所示。可以看出,任务内容对我们的方法性能有显著影响,不同任务的结果差异较大;这可以解释为不同任务会引发不同的面部行为,其中一些对检测抑郁更具信息量。其次,显然所有任务的特征级融合和决策级融合结果优于仅使用单一任务特征,表明通过融合多任务信息可更好地分析抑郁。第三,在比较三种融合策略,即输入级融合(从完整视频中提取特征)、特征级融合和决策级融合时,决策级融合效果最佳,特征级融合优于输入级融合。这一结果表明,基于任务片段建模抑郁比不考虑任务时间边界的完整视频更能准确预测抑郁严重程度。 - 视频长度的影响
在本节中,我们使用了对应任务4的10%至100%的视频片段(以10%为增量),来研究视频长度对抑郁预测的影响。由于任务4要求参与者阅读相同的文本,因此该任务的内容对所有参与者而言是恒定的,这使得分析不受其他因素(如任务6中的不同故事主题等)的影响。
从图10可以看出,当视频时长非常短时,性能较低。然而,当视频长度增加时,可供分析的长期行为也随之增加。因此,抑郁估计性能显著提高,在AVEC 2013数据集中,使用任务4视频片段的前80%(这些视频的平均长度为338.7秒)时取得了最佳结果。
- 面部行为原语分析
- 消融实验
- 频率对齐方法比较
如3.2.2节所述,我们采用了两种频率对齐方法,即零填充和频率选择。在本节中,我们对4.5.2节中描述的所有基于任务和融合实验评估这两种方法,并报告它们各自达到的平均性能。为了展示频率对齐的有效性与必要性,我们还报告了未对频谱特征进行任何频率对齐的模型的平均性能。表3和表4比较了两种频率对齐方法(针对所有基于任务和融合实验的平均性能)与未进行对齐的模型的性能。两个数据集上的结果表明,频率对齐是必要的,因为两种对齐方法的性能均优于未进行对齐的模型。还可以观察到,两种频率对齐方法的性能相似,所提出的频率选择方法略优于零填充。这两种方法各有优势:零填充可以提高频谱信号的分辨率,而频率选择的使用可防止原始信号失真。 - 频谱表示比较
我们还比较了3.2.3节中描述的两种频谱表示,即频谱热图和频谱向量的性能。图9显示了融合结果以及每个任务单独取得的结果。在所有实验中,频谱向量的性能显著高于频谱热图的性能。这一结果的可能原因有两点:一是训练样本数量(训练50个,验证50个)太少,不足以在不发生过拟合的情况下训练CNN(通常具有大量可训练参数);二是我们在将频谱向量输入ANN之前进行了特征选择。这意味着在模型训练前已移除大部分信息量较小的行为信息,从而:1. ANN模型的输入层更小,参数更少,使其更容易通过小数据集进行训练;2. 减少后的数据更紧凑且噪声更少。
- 频率对齐方法比较
- 与最先进方法的比较
我们将我们排名前两位的最佳系统在两个数据集上的性能与最先进结果进行了比较,结果见表5和表6。对于AVEC 2013数据集,由于仅有39个测试视频包含所有任务,因此图9中显示的任何基于任务的结果都不适合与其他已发表的研究进行比较。相反,我们报告了从AVEC 2013数据集的完整视频中提取的频谱表示所获得的结果。具体而言,我们在AVEC 2013中的最佳系统采用了零填充对齐频率,并使用频谱向量作为频谱表示。如表5所示,我们的系统在均方根误差(RMSE)和平均绝对误差(MAE)方面取得了最佳结果,分别比当前最先进的方法提高了2.2%和0.7%。在相关性指标方面,第二佳系统(Sel+SV)的CCC和PCC分别为0.68和0.75,而最佳系统(Pad+SV)的CCC和PCC分别为0.60和0.73。系统(Sel+SV)的详细预测结果可视化于图11a。在AVEC 2014数据集上,我们的前两名最佳系统均优于当前最先进的方法。我们的最佳系统针对每个任务(即Northwind和Freeform)采用选择方法对齐频率,并使用频谱向量作为表示。同时,第二佳系统针对每个任务采用零填充对齐频率,并使用频谱向量作为表示。两个系统的最终预测均通过两个任务的决策级融合计算得出。从表6可以看出,我们的最佳系统在RMSE和MAE方面分别比当前最先进的方法提高了4.2%和10.7%。最佳系统(Sel+SV+Dec-fusion)和第二佳系统(Pad+SV+Dec-fusion)的CCC结果分别为0.67和0.63,而两个系统的PCC结果均为0.78。当仅使用单个视频集时,我们的最佳结果仍优于所有列出的方法([20]中报告的结果同时使用了Northwind和FreeForm视频)。我们的最佳系统(Sel+SV+Dec-fusion)的详细预测结果可视化于图11b。
结论
本文提出了一种基于自动检测的面部行为原语的新型视频自动抑郁分析方法。由于长期时间动态是抑郁分析的重要资产,所提出的方法首先采用傅里叶变换将时间序列行为信号转换到频域作为频谱信号,其中频谱信号中的每个分量编码整个视频的不同频率信息。因此,生成的频谱信号包含多尺度的视频级时间信息。然而,由于原始视频长度的差异,其对应的时间序列行为信号和频谱信号的长度也各不相同。为了使频谱信号能够被标准机器学习模型轻松处理,我们还提出了两种频率对齐方法。此外,我们还提出了两种频谱表示,即频谱热图和频谱向量,用于编码对齐后的频谱信号,使其分别能够被卷积神经网络(CNNs)和人工神经网络(ANNs)学习。我们在AVEC 2013和AVEC 2014数据集上评估了所提出的方法,因为每个数据集中的视频包含相同的任务。本文开展了一系列研究。首先,面部行为原语分析表明,AU15、AU17、AU12、AU04和AU09是用于抑郁估计最有价值的行为原语。其次,基于任务的实验和融合实验表明,任务内容对抑郁估计结果有显著影响。此外,从多个任务中检测抑郁通常比单独使用单个任务产生更好的结果。第三,我们比较了两种提出的频率对齐方法,即零填充和频率选择。结果显示它们取得了相似的结果。同时,两种频谱表示之间的比较表明,频谱向量明显优于频谱热图。然而,我们认为,如果提供更多训练数据,频谱热图的性能有可能得到提升,因为当前音频-视觉抑郁数据库中的训练数据量不足以训练深度CNN。最后,我们将我们的最佳系统与最先进的工作进行了比较。结果清楚地表明,我们的方法优于所有其他工作。如上所述,如果提供更多训练数据,使用CNN从频谱热图中进行训练的性能有可能得到改善。因此,我们的未来工作将重点收集用于视频基于抑郁分析的大规模数据库。同时,由于本文仅使用自动检测的AU、凝视和头部姿态来提取逐帧表示,仍然忽略了一些其他潜在有用的信息(例如,微表情、语音等)。未来,我们计划探索哪些其他类型的行为原语可用于自动抑郁分析。