论文基本信息
论文标题:Hybrid Network Using Dynamic Graph Convolution and Temporal Self-Attention for EEG-Based Emotion Recognition
作者:Cheng Cheng, Zikang Yu, Yong Zhang, Lin Feng
期刊:IEEE Transactions on Neural Networks and Learning Systems
发表时间:December 2024
卷期号:Vol.35, No.12
页码范围:18565-18575
DOI:10.1109/TNNLS.2023.3319315
研究问题与核心贡献
解决的问题
传统EEG情绪识别研究存在显著局限性:大多数方法要么只关注脑电信号的空间拓扑特性(如大脑电极间的功能连接),要么只关注时间动态特性,缺乏对空间-时间特征的联合建模。这种单一视角的建模方式无法充分挖掘EEG信号中蕴含的丰富情感信息,限制了情绪识别性能的进一步提升。
核心贡献
-
创新性混合架构:首次提出将动态图卷积与时间自注意力机制相结合的混合网络(HN-DGTS),实现空间-时间特征的协同学习
-
动态图卷积模块(DGC):设计了一种能够根据训练数据自动调整大脑功能连接的图卷积网络,克服了传统固定拓扑结构的局限性
-
时间自注意力模块(TSAR):引入自注意力机制来捕捉EEG信号中的长程时间依赖关系,自动聚焦于情感相关的关键时间段
-
分层交叉注意力融合(H-CAF):提出多层次的特征融合机制,深度整合空间和时间特征中的互补信息
-
端到端优化框架:整个模型支持端到端训练,邻接矩阵能够通过反向传播动态更新,增强模型适应性
方法详解:HN-DGTS混合网络架构
整体框架设计
HN-DGTS模型的核心思想是通过三个精心设计的模块协同工作,全面挖掘EEG信号中的空间-时间情感特征。
1. 动态图卷积模块(DGC)深度解析
脑功能网络构建
DGC模块的首要任务是构建能够反映大脑真实功能连接的网络结构:
时间分段处理:将原始的EEG信号分割为多个非重叠的时间窗口,每个窗口时长t秒。这种处理方式能够捕捉大脑功能连接的动态变化特性。
微分熵特征提取:对每个时间窗口提取微分熵(Differential Entropy, DE)特征,这是EEG情绪识别中经过验证的有效特征表示。DE特征的计算基于信号的能量分布,能够很好地反映大脑活动的状态。
皮尔逊相关系数计算:使用PCC构建大脑功能连接矩阵,计算公式为:

其中x和y代表两个EEG通道的信号,cov表示协方差,μ和σ分别表示均值和标准差。
图结构优化与增强
拉普拉斯矩阵计算:为了提高图的泛化能力,将邻接矩阵转换为拉普拉斯矩阵:

其中A^f是单位矩阵化的邻接矩阵,D^是度矩阵。
自注意力增强机制:引入多头自注意力来动态调整边的重要性权重:

其中WQ和WK是线性投影参数,d是缩放因子。
增强的拉普拉斯矩阵:将传统拉普拉斯矩阵与注意力权重矩阵融合:

λ是超参数,用于平衡两种矩阵的贡献。
动态图卷积操作
DGC模块采用多层图卷积结构,每层的计算定义为:

其中Xs(m)是第m层的输出,W(m)是该层的可学习参数,σ是ReLU激活函数。
2. 时间自注意力表示模块(TSAR)技术细节
时间序列重构与变换
TSAR模块首先对输入EEG信号进行维度变换,将原始形状为[N×C×D]的数据转换为[N×D×C],突出时间维度的重要性。
自注意力机制实现
查询-键-值生成:

注意力权重计算:

特征聚合与更新:

残差连接与归一化
为了解决深度网络中的梯度消失问题,TSAR模块引入了残差连接和层归一化:
残差连接:

前馈网络增强:

其中FFN由两个全连接层和ReLU激活函数组成,进一步提取非线性时间特征。
3. 分层交叉注意力融合(H-CAF)模块创新设计
交叉注意力机制原理
H-CAF模块的核心创新在于采用交叉注意力而非传统的自注意力,使两个模态的特征能够相互引导:
基础交叉注意力单元:

其中Q是一个模态的查询输入,K和V是另一个模态的键值输入。
层级融合架构
H-CAF采用对称的层级结构,每个层级包含两个CAF单元:

这种设计使得空间和时间特征在多个层级上进行深度交互,充分利用了两种特征的互补性。
4. 动态更新机制与训练策略
邻接矩阵反向传播更新
HN-DGTS的一个关键创新是邻接矩阵能够在训练过程中动态更新:
梯度计算:

矩阵更新规则:

其中ρ是学习率,μ是正则化系数。
损失函数与优化
模型使用交叉熵损失函数,并结合L2正则化防止过拟合:

优化器采用Adam,学习率设置为0.01,训练300个epoch,使用dropout率为0.5的dropout层防止过拟合。
实验验证与性能分析
数据集配置与预处理
研究在三个标准EEG情绪识别数据集上进行了全面评估:
DEAP数据集:包含32名被试观看40段音乐视频时的EEG信号,采用arousal和valence二维情感模型,进行二分类任务。
SEED数据集:15名被试,15段视频诱发三种情感(正性、中性、负性)。
SEED-IV数据集:15名被试,24段视频诱发四种情感(喜悦、悲伤、恐惧、中性)。
消融实验分析
消融实验验证了各个模块的贡献:

实验结果显示,完整HN-DGTS模型在各个方面均优于单独使用DGC或TSAR模块,证明了多模态融合的有效性。
多频段性能比较
不同频率波段对情绪识别的贡献各不相同:

高频波段(β和γ)在情绪识别中表现最佳,而多频段融合在SEED和SEED-IV数据集上达到最优性能。
混淆矩阵与错误分析
模型在不同情感类别上的表现存在差异:

模型对负面情绪识别更敏感,这符合情感神经科学的研究发现。
与先进方法的对比分析
HN-DGTS在三个基准数据集上均显著超越现有最佳方法,在DEAP valence维度达到89.98%,SEED三分类达到97.53%,SEED-IV四分类达到98.97%的准确率。
技术优势与创新价值
-
全面性:首次在EEG情绪识别中同时优化空间拓扑和时间动态特征
-
自适应性:动态图卷积允许模型根据输入数据自适应调整大脑连接模式
-
可解释性:注意力机制提供了特征重要性的可视化解释
-
实用性:端到端的架构便于实际部署和应用
局限性与未来方向
当前模型的主要局限性在于对大规模标注数据的依赖,未来工作可以探索小样本学习、半监督学习等方向,同时可以考虑融入多模态信息(如生理信号、面部表情等)进一步提升性能。
这项研究为EEG情绪识别建立了新的技术标杆,其创新性的架构设计为后续研究提供了重要借鉴。