基于动态图卷积与时间自注意力的EEG情绪识别混合网络——深度技术解析

论文基本信息

论文标题：Hybrid Network Using Dynamic Graph Convolution and Temporal Self-Attention for EEG-Based Emotion Recognition

作者：Cheng Cheng, Zikang Yu, Yong Zhang, Lin Feng

期刊：IEEE Transactions on Neural Networks and Learning Systems

发表时间：December 2024

卷期号：Vol.35, No.12

页码范围：18565-18575

DOI：10.1109/TNNLS.2023.3319315

研究问题与核心贡献

解决的问题

传统EEG情绪识别研究存在显著局限性：大多数方法要么只关注脑电信号的空间拓扑特性（如大脑电极间的功能连接），要么只关注时间动态特性，缺乏对空间-时间特征的联合建模。这种单一视角的建模方式无法充分挖掘EEG信号中蕴含的丰富情感信息，限制了情绪识别性能的进一步提升。

核心贡献

创新性混合架构：首次提出将动态图卷积与时间自注意力机制相结合的混合网络（HN-DGTS），实现空间-时间特征的协同学习
动态图卷积模块（DGC）：设计了一种能够根据训练数据自动调整大脑功能连接的图卷积网络，克服了传统固定拓扑结构的局限性
时间自注意力模块（TSAR）：引入自注意力机制来捕捉EEG信号中的长程时间依赖关系，自动聚焦于情感相关的关键时间段
分层交叉注意力融合（H-CAF）：提出多层次的特征融合机制，深度整合空间和时间特征中的互补信息
端到端优化框架：整个模型支持端到端训练，邻接矩阵能够通过反向传播动态更新，增强模型适应性

方法详解：HN-DGTS混合网络架构

整体框架设计

HN-DGTS模型的核心思想是通过三个精心设计的模块协同工作，全面挖掘EEG信号中的空间-时间情感特征。

1. 动态图卷积模块（DGC）深度解析

脑功能网络构建

DGC模块的首要任务是构建能够反映大脑真实功能连接的网络结构：

时间分段处理：将原始的EEG信号分割为多个非重叠的时间窗口，每个窗口时长t秒。这种处理方式能够捕捉大脑功能连接的动态变化特性。

微分熵特征提取：对每个时间窗口提取微分熵（Differential Entropy, DE）特征，这是EEG情绪识别中经过验证的有效特征表示。DE特征的计算基于信号的能量分布，能够很好地反映大脑活动的状态。

皮尔逊相关系数计算：使用PCC构建大脑功能连接矩阵，计算公式为：

其中x和y代表两个EEG通道的信号，cov表示协方差，μ和σ分别表示均值和标准差。

图结构优化与增强

拉普拉斯矩阵计算：为了提高图的泛化能力，将邻接矩阵转换为拉普拉斯矩阵：

其中A^f是单位矩阵化的邻接矩阵，D^是度矩阵。

自注意力增强机制：引入多头自注意力来动态调整边的重要性权重：

其中WQ和WK是线性投影参数，d是缩放因子。

增强的拉普拉斯矩阵：将传统拉普拉斯矩阵与注意力权重矩阵融合：

λ是超参数，用于平衡两种矩阵的贡献。

动态图卷积操作

DGC模块采用多层图卷积结构，每层的计算定义为：

其中Xs(m)是第m层的输出，W(m)是该层的可学习参数，σ是ReLU激活函数。

2. 时间自注意力表示模块（TSAR）技术细节

时间序列重构与变换

TSAR模块首先对输入EEG信号进行维度变换，将原始形状为[N×C×D]的数据转换为[N×D×C]，突出时间维度的重要性。

自注意力机制实现

查询-键-值生成：

注意力权重计算：

特征聚合与更新：

残差连接与归一化

为了解决深度网络中的梯度消失问题，TSAR模块引入了残差连接和层归一化：

残差连接：

前馈网络增强：

其中FFN由两个全连接层和ReLU激活函数组成，进一步提取非线性时间特征。

3. 分层交叉注意力融合（H-CAF）模块创新设计

交叉注意力机制原理

H-CAF模块的核心创新在于采用交叉注意力而非传统的自注意力，使两个模态的特征能够相互引导：

基础交叉注意力单元：

其中Q是一个模态的查询输入，K和V是另一个模态的键值输入。

层级融合架构

H-CAF采用对称的层级结构，每个层级包含两个CAF单元：

这种设计使得空间和时间特征在多个层级上进行深度交互，充分利用了两种特征的互补性。

4. 动态更新机制与训练策略

邻接矩阵反向传播更新

HN-DGTS的一个关键创新是邻接矩阵能够在训练过程中动态更新：

梯度计算：

矩阵更新规则：

其中ρ是学习率，μ是正则化系数。

损失函数与优化

模型使用交叉熵损失函数，并结合L2正则化防止过拟合：

优化器采用Adam，学习率设置为0.01，训练300个epoch，使用dropout率为0.5的dropout层防止过拟合。

实验验证与性能分析

数据集配置与预处理

研究在三个标准EEG情绪识别数据集上进行了全面评估：

DEAP数据集：包含32名被试观看40段音乐视频时的EEG信号，采用arousal和valence二维情感模型，进行二分类任务。

SEED数据集：15名被试，15段视频诱发三种情感（正性、中性、负性）。

SEED-IV数据集：15名被试，24段视频诱发四种情感（喜悦、悲伤、恐惧、中性）。

消融实验分析

消融实验验证了各个模块的贡献：

实验结果显示，完整HN-DGTS模型在各个方面均优于单独使用DGC或TSAR模块，证明了多模态融合的有效性。

多频段性能比较

不同频率波段对情绪识别的贡献各不相同：

高频波段（β和γ）在情绪识别中表现最佳，而多频段融合在SEED和SEED-IV数据集上达到最优性能。

混淆矩阵与错误分析

模型在不同情感类别上的表现存在差异：

模型对负面情绪识别更敏感，这符合情感神经科学的研究发现。

与先进方法的对比分析

HN-DGTS在三个基准数据集上均显著超越现有最佳方法，在DEAP valence维度达到89.98%，SEED三分类达到97.53%，SEED-IV四分类达到98.97%的准确率。

技术优势与创新价值

全面性：首次在EEG情绪识别中同时优化空间拓扑和时间动态特征
自适应性：动态图卷积允许模型根据输入数据自适应调整大脑连接模式
可解释性：注意力机制提供了特征重要性的可视化解释
实用性：端到端的架构便于实际部署和应用

局限性与未来方向

当前模型的主要局限性在于对大规模标注数据的依赖，未来工作可以探索小样本学习、半监督学习等方向，同时可以考虑融入多模态信息（如生理信号、面部表情等）进一步提升性能。

这项研究为EEG情绪识别建立了新的技术标杆，其创新性的架构设计为后续研究提供了重要借鉴。