IEEE子刊｜利用最优数量EEG电极实时检测认知负荷的深度学习技术

本研究提出了一种面向实时场景的认知负荷检测方法：把EEG的θ/α特征变成二维"脑状态图"，再交给轻量级CNN做分类。研究在三个数据集上验证，模型在"已见受试者"上达到95.81%准确率，在"全新受试者"上达到92.73%，而且只需要5个电极（1个前额叶+4个额叶），兼顾精度与部署成本。

摘要

认知负荷分析可以根据个体的认知状态提供适应性辅助，具有显著增强脑机接口(BCI)性能的潜力。本文提出了一种通过脑电图(EEG)信号实时检测认知负荷的方法，重点优化计算资源的使用(如EEG电极数量和位置)。研究分析了前额叶、额叶、顶叶、颞叶和枕叶等多个脑区，这些区域对于识别认知状态转换方面至关重要。基于EEG频段变化的现有知识，本研究采用Lambert圆柱等积投影法和适当的插值方法来构建二维脑状态图像，用以表征活跃的大脑区域。这些二维图像随后由卷积神经网络(CNN)处理，该网络专为区分认知状态与静息状态而设计。为了验证所提出的模型，本研究使用了三个EEG数据集。实验结果显示，该模型在已知受试者上的总体准确率为95.81%，在新受试者上的准确率达92.73%(仅使用五个电极，即一个前额叶电极和四个额叶电极)。此外，该模型适用于在计算资源有限的数字系统中实现，同时能够保持良好的性能并满足实时系统的要求。

引言

认知负荷可定义为大脑工作记忆(WM)在任意时刻所承载的思维活动量。高认知负荷可能对任务执行或学习能力产生负面影响。因此，在进行脑力任务时，准确识别个体的认知负荷至关重要。认知负荷检测研究对轻度认知障碍筛查、阅读障碍诊断、帕金森病(PD)诊断、抑郁症检测、脑功能连接以及神经科学应用具有重要意义。脑电图(EEG)作为一种非侵入性技术，通过采集脑信号来测量认知负荷，是目前应用最广泛的方法之一。

多项研究测量了脑力任务(DMTs)期间的认知负荷。EEG通道优化通过聚焦于最相关的电极和脑区来提升信号质量，减少噪声与无关数据干扰，同时提高计算效率，实现快速处理(尤其适用于实时应用)。Yan等人(2023)提出了一种基于贪婪群体效用的EEG通道选择策略，研究发现仅在听觉和颞叶区域最优选择三个EEG通道，能够在认知负荷识别中提供与考虑所有通道时相似的性能。Rafiuddin等人(2022)的研究指出，在通过识别关键特征实现令人满意的认知负荷分类性能后，可将该算法应用于更大的EEG数据库，仅使用关键特征对相似类别进行分类，从而有效降低计算复杂度。该研究同时提到，173.61Hz的低采样频率限制了小波分解层级，从而阻碍了对认知负荷的更深入分析。

Gao等人(2023)表明，θ和α频段与认知负荷及记忆表现高度相关。Xu等人(2023)的研究发现α、β和θ频段对青年与老年群体的WM任务均有显著影响，且仅在老年人群体中，α活动与WM负荷之间存在负相关关系。在认知负荷分类方面，多项研究采用了支持向量机(SVM)、K近邻(KNN)和朴素贝叶斯等分类器。然而，使用这些机器学习方法进行认知工作负荷测量需要提取合适的特征。

深度学习方法可实现自动特征工程。基于注意力的递归模糊网络(ARFN)的深度学习在EEG脑力负荷评估中表现良好。对于卷积神经网络(CNN)，可从图像中自动提取更复杂的特征。使用共享空间映射网络(SSMN)生成的图像作为输入，提供给不同深浅架构的CNN模型。结果表明，大脑皮层区域在认知负荷分级中起着重要作用。在Havugimana等人(2021)的研究中，为了使用EEG预测四种不同的认知负荷水平，时间序列信号被转换为空间-频谱表征(称为Topomap)，编码了θ、α和β三个独立频段的功率谱密度。将实验生成的Topomap图像输入CNN模型，三个频段及组合的准确率分别为86%、85%、88%和90%。Havugimana等人(2024)同样生成了θ、α、β及复合表征的Topomap脑图像，并结合CNN的梯度加权类激活映射(Grad-CAM)分析发现前额叶、小脑、额叶和顶叶区域对认知负荷预测贡献最大。Jiao等人(2018)综合考虑EEG空间、频谱和时间信息，生成了θ、α和β频段的3D头皮功率图，并通过方位角等距投影转换为2D平面。将实验中生成的2D图像作为输入提供给两种不同类型的融合CNN，错误分类率分别为8.63%和7.86%。在基于CNN的实时情绪识别系统中，利用六通道时频EEG特征生成的频谱图显示出良好效果。CNN已成为研究人员研究脑力负荷、运动想象和情绪识别的热门模型。

清醒状态下的EEG信号采集具有一定的挑战性。深度学习(特别是CNN)的最新进展，凭借其自动特征提取能力，在关键特征识别方面展现了良好的适用性。CNN在图像数据分析方面已获得显著成果。以往关于认知负荷评估的研究通过利用时频域中的代表性脑图像取得了重要进展。然而，这些研究并未专门解决减少EEG电极数量这一影响成本与复杂度的实时约束要求。本文的主要贡献如下：

1)通过保留时空信息，采用一种新型Lambert圆柱等积投影技术将3D电极位置映射至2D平面；

2)开发一种基于CNN的简化流程以减少识别认知负荷所需的EEG电极数量；

3)优化系统设计参数(如EEG电极数量、CPU时间和内存利用率)以满足实时约束要求。

数据集信息

本研究使用了三个数据集。在第一个数据集中，本研究采集了15名健康受试者的脑电信号，并对信号数据进行预处理以去除噪声；其余两个开源数据集分别来自Zyma等人(2019)和Shin等人(2017)的研究，均已完成预处理。下文将第一个数据集标记为数据集A，其余两个分别标记为数据集B和C。各个数据集概况如下：

数据集A

采用16通道脑电设备(Brain Vision LiveAmp，采样率为500Hz)采集受试者进行心算任务(MA)与静息状态时的大脑信号(如图1所示)。15名健康受试者(2名女性与13名男性，平均年龄29±2.01岁)均在签署知情同意书后参与实验，研究已通过伦理审查。

图1.受试者执行(a)心算任务(DMT/MA)与(b)静息状态(BMT/BL)。

在记录EEG信号前，将电极阻抗控制在25-60kΩ范围内，确保电极与头皮保持良好接触及信号有效传导。在校准阶段，检查并调整各电极阻抗值，使其与头皮充分接触并最大限度地降低信号采集时的噪声。启用该脑电设备内置的50Hz陷波滤波功能以消除工频干扰。在采集到EEG信号后，使用0.5-40Hz的数字有限脉冲响应(FIR)带通滤波器(四阶切比雪夫II型FIR滤波器)来抑制高频噪声并最小化慢速信号漂移。使用独立成分分析(ICA)去除头动和眨眼相关的伪迹。

每名受试者需完成15个心算任务及任务前后共16次静息态记录。静息态(BMT)采集时长为160s，心算任务(DMT)采集时长为110s。图2展示了实验设置的时序示意图。

图2.实验设置时序图。

数据集B

Zyma等人(2019)提供的数据集包含36名健康受试者(平均年龄18.6±0.87岁，9名男性和27女性)在500Hz采样率下的BMT与DMT脑电数据。在36名受试者中，2名受试者(第5名和第30名受试者)的BMT数据采集时长异常，故剔除该两名数据，实际共纳入34名受试者的数据。

数据集C

数据集C的脑电数据来自Shin等人(2017)研究中29名健康受试者(平均年龄26.01±3.5岁，9名男性和17名女性)的EEG-fNIRS实验，包含运动想象、心算任务以及运动伪迹三类数据。本研究选用其心算任务(MA)的EEG数据，选取包含MA与基线任务(BL)的第6个实验阶段的数据。

训练集与测试集：为构建模型训练与测试数据集，首先将受试者随机划分为"已见子集"和"未见子集"两类。三个数据集的已见和未见类别分布情况如表1所示。采用分层留一交叉验证技术以保持各类别的比例，对已见受试者数据实施滤波、归一化及特征提取处理。测试集归一化采用与训练集相同的归一化因子。

表1.三个数据集中的已见和未见类别分布。

方法

图3展示了所提出模型的完整工作流程，包含从EEG数据采集到生成脑地形图，再到使用卷积神经网络(CNN)进行分类的全过程。该方法的主要步骤包括：EEG频段选择、信号滤波、均方根(rms)值计算、脑地形图生成，最终通过CNN进行分类。通过计算θ和α频段的均方根值来提取EEG信号特征，并利用这些值将电极位置从三维坐标映射到二维平面以生成脑地形图像。最后，使用不同脑区和不同尺寸的图像来训练和测试CNN，以确定用于将EEG信号分类为BMT或DMT的最佳EEG电极数量。

图3.基于EEG信号的认知负荷检测流程。

频带选择滤波器

EEG信号的高时间分辨率能即时反映突触后电位变化，从而有助于追踪大脑功能的变化。Gao等人(2023)和Xu等人(2023)的研究指出，θ和α频段与认知负荷和记忆表现有关。由于θ与α频段之间呈反向关联，其功率比(θ-α比率TAR)在认知负荷分析中展现出良好的效果。TAR测量是评估受试者心理负荷的常用方法。

带通滤波器与小波变换常被用于分离特定的EEG子频段。本研究聚焦于捕获临床公认标准EEG频段内的稳态振荡活动，并观察认知过程引起的脑状态变化。带通滤波器特别适合检测这些预设频段内的稳态振荡活动，具有计算效率高、信号分析一致等优势，且无需复杂的时频分辨率。虽然小波可用于提取与敏感尺度值相关的系数，但将这些尺度值与已知频段(如θ、α和δ)关联起来仍需进一步研究，并取决于母小波的选择。在本研究中，通过并行应用两个带通FIR数字滤波器，从EEG信号流中提取θ(4-8Hz)和α(8-12Hz)频段成分，采用四阶切比雪夫数字FIR滤波器进行滤波。

由于响应时间高度一致且变异性低，均方根(rms)通过聚焦稳定特征(而非复杂的非线性指标或可能产生误导的瞬态特征)使模型更具普适性。虽然熵和分形维数等非线性指标能捕捉更复杂的信号模式，但计算量巨大。RMS在计算效率与捕捉大脑认知状态有意义变化的能力之间实现了平衡。本研究计算了θ和α频段的rms值，为了减少计算成本，本研究还评估了前额叶、额叶、顶叶、颞叶和枕叶区域电极信号的TAR值，因为这些区域可观测到神经活动变化。设电极集合为E，TAR计算公式如下(1)：

其中，θi和αi分别表示对应电极位置的θ和α频段的rms值。采用3s窗长和2s重叠计算rms值。以数据集A为例，分别为160s的BMT和110s的DMT生成了158个和108个时间窗。

鉴于不同受试者的认知负荷存在差异，因此从信号数据中获得的rms值也可能因受试者而异。为确保数据的一致性，所有受试者的BMT和DMT数据的rms值均通过最小-最大归一化处理，转换至 $0，1$ 范围。

电极位置的三维至二维映射

本研究将三维电极位置映射至二维平面以便可视化处理，而且二维图像的计算也更加简便。电极间距会显著影响信号功率测量，因此位置映射至关重要。三维至二维的映射过程需最大限度地减少信息损失。

本研究采用Lambert圆柱等积投影将电极位置从三维映射至二维矩形平面(非圆形)。矩形投影能够保持电极间空间关系的一致性，这对于依赖局部空间特征(如边缘和纹理)进行分类的CNN至关重要。矩形网格的均匀性使CNN能够有效学习可能因圆形表示而失真或丢失的空间模式。对于依赖每个像素进行特征提取的CNN来说，最大化图像区域的利用率具有显著优势。

将头部视为半球体时，映射步骤如下：

1)将笛卡尔坐标转换为球面坐标：将三维直角坐标(x，y，z)转换为纬度(φ)和经度(λ)：

2)Lambert圆柱等积投影：在获得φ和λ后，通过下式计算二维坐标(X，Y)：

这里，X代表二维平面中的纵向位置。Y是二维平面中的横向位置，该坐标通过纬度的正弦值进行缩放以确保面积守恒。图4展示了从三维空间映射至二维平面的电极位置分布。

图4.三维电极位置向二维平面的映射。

脑地形图生成

大脑特定区域的敏感度取决于受试者在特定时间的精神状态。通过电极位置可识别大脑中对特定认知任务更敏感的相关区域。需生成一张包含电极定位信息及提取特征的脑部图像。为此，需要创建彩色脑地形图(亦称热力图)以可视化受试者的认知负荷。

该二维平面被表示为一个256×256的矩阵，其中每个单元格代表一个像素点。电极被视为置于该矩阵中。脑地形图基于电极信号均方根值生成，并采用以下插值函数确定像素值：

其中，Pi,j表示位置(i,j)处的像素值，dk表示第k个电极与位置(i,j)像素间的距离，rk为第k个电极的均方根值。为选取合适的插值函数f(.)，本研究对五种不同函数进行了实验验证。基于所得像素值Pi,j，分别为BMT和DMT生成了3s窗长、2s重叠的脑地形图像。

CNN架构

本研究提出采用CNN模型对脑地形图进行BMT与DMT二分类。图5展示了所提出的CNN模型架构。尺寸为256×256的图像作为CNN的输入，滤波器大小从13×13逐步减小至11×11，再降至7×7，最后为5×5，其中填充尺寸为1×1，步长为2×2。滤波器数量从16递增至48，再到96，以提取图像数据的抽象特征。经卷积层后加入批量归一化层对图像进行标准化处理，该层置于卷积层与ReLU层之间以增强CNN的训练效果。ReLU层的输出作为最大池化层的输入，其中池化大小为2×2，步长为2。为防止模型过拟合，添加了丢弃率为50%的Dropout层。全连接层采用BMT与DMT的二分类机制。

图5.CNN架构。

本研究采用留一验证法对所提CNN模型进行训练、验证与测试。为了评估CNN模型在分类BMT和DMT方面的性能，本研究计算了准确率、召回率、精确率和F1分数四项标准指标。此外，还计算了模型训练测试的CPU耗时与内存占用情况，以综合分析所提模型的性能表现。

结果与分析

1)脑地形图生成的插值函数选择

为了选择最佳插值函数f(.)，本研究测试了五种不同的函数。由五种插值函数生成的地形图交由三位专家进行视觉评估，并标注为"BMT"、"DMT"或"无法判断"。专家评估结果如表2所示，第一个函数f1(.)在三个数据集中均表现最优。因此，本研究从五个候选函数中选择了公式(7)所示的f1(.)作为插值函数。该函数是均值μ=0、标准差σ=30的高斯函数f2(.)的改良形式。

表2.五种不同插值函数及其对应的受试者百分比。

从表2中可以看出，采用改进后的高斯函数f1(.)，所提出的基于均方根生成二维脑地形图的方法在三个数据集中均取得了较好的结果。对于数据集A-C，BMT与DMT图像的可辨别率分别达到75.40%、79.41%和72.4%。

2)二维脑地形图生成

基于(7)式所得的像素值Pi,j，分别为BMT和DMT数据生成了时间窗为3s、重叠2s的二维地形图。部分图像如图6-8所示。图6中第一行与第二行分别呈现了数据集A第12号被试三个时间窗的BMT(即基线状态BL)和DMT(即任务状态MA)图像；数据集B第8号被试与数据集C第0号被试的对应结果分别如图7与图8所示。

图6.数据集A第12号被试三个时间窗的BMT与DMT脑地形图。

图7.数据集B第8号被试三个时间窗的BMT与DMT脑地形图。

图8.数据集C第0号被试三个时间窗的BL(即BMT)与MA(即DMT) 脑地形图。

3)基于CNN的分类

由于三个数据集的BMT数据时长(160/180/150s)与DMT数据时长(110/60/100s)不匹配，所以各被试的BMT与DMT图像分布不均衡。采用欠采样平衡类别分布时可能存在信息损失，但鉴于BMT大部分图像(时间窗)包含相似的信息，因此这种损失可忽略不计。在实施欠采样平衡类别分布的同时，还对训练数据进行了图像增强以获得更好的效果。

为了识别CNN模型区分BMT与DMT的关键脑区，本研究根据不同脑区(前额叶、额叶、中央区、顶叶、颞叶、枕叶)对应的电极位置生成全数据集地形图。CNN详细性能比较见表3。此外，为了优化CPU时间与内存利用率，逐步将RGB和GRAY图像尺寸从256×256降至128×128、64×64和32×32，结果见表4。图像尺寸无法进一步缩小，因为在执行第四次卷积操作后，输入维度的尺寸将不满足最大池化层要求。

表3.基于不同电极位置的CNN模型性能比较。

表4.基于RGB/GRAY图像尺寸的模型性能比较。

最优脑电电极数量选择

表3对比分析了三个数据集中对应不同脑区(前额叶、额叶、中央区、顶叶、颞叶、枕叶)电极位置生成的脑地形图性能。各评价指标最优值(包括准确率Acc.、精度Pre.、召回率Rec.、F1值、CPU时间及内存占用)用粗体显示。对于数据集A的已见受试者，额叶与前额叶区域在精度(97.16%)、召回率(90.73%)、F1值(90.74%)上表现最佳，准确率(94.77%)仅比最优值低0.02%；而对于未见受试者，该区域在准确率(92.7%)、精度(95.07%)、F1值(88.65%)上最优，召回率(89.24%)位列第三。表3还显示，对于数据集B和C的已见受试者，额叶与前额叶区域使用5个电极时在CNN分类中取得了最佳准确率(分别为94.84%和96.85%)和精度(分别为95.91%和96.71%)。未见受试者同样呈现类似的规律，最优准确率(92.76%和94.45%)与精度(94.62%和94.62%)均集中于该区域。值得注意的是，三个数据集中，仅使用2个电极时的颞叶与枕叶地形图因信息量不足，其准确率、精度、召回率、F1值及CPU时间多为CNN模型区分BMT/DMT的最低值。由于图像总数差异较小且尺寸均为256×256，各数据集内存占用变异系数较低(标准差分别为±0.63、±0.72和±1.13)。通过减少计算成本来优化资源利用，本研究发现仅使用前额叶与额叶区域5个电极即可实现认知负荷实时分析的良好效果。

CPU时间与内存最优配置

表4展示了所提地形图生成方法在CNN模型中对三个数据集RGB/GRAY图像及不同尺寸的性能评估，最优指标用粗体标注。从表中可以看出，除数据集B外，数据集A和C在64×64 RGB图像上取得了最高准确率；三个数据集的最高F1值均出现在64×64 RGB图像。由于GRAY图像通道数较少，其CPU时间与内存占用显著低于RGB图像，故32×32 GRAY图像的资源消耗最低。图9与图10分别展示了CNN模型在已见数据上的CPU时间与内存占用曲线，可见随图像尺寸减小，RGB与GRAY图像的资源消耗均呈梯度下降。在这种类型的实验中，若侧重准确率、精度与F1值，可采用64×64的RGB图像；若优先考虑CPU时间与内存占用，也可以使用64×64的GRAY图像(三个数据集的准确率标准差仅为±1.83)。

图9.CNN模型在三个数据集RGB/GRAY图像上的CPU时间比较。

图10.CNN模型在三个数据集RGB/GRAY图像上的内存占用比较。

结论

本研究提出了一种实时深度学习方法，通过优化EEG电极配置、CPU时间和内存使用来检测认知负荷(DMT)。实验使用了三个数据集，基于EEG信号的TAR特征提取了各脑区的均方根值，并通过Lambert圆柱等积投影将三维电极位置映射至二维平面上，从而生成BMT/DMT脑地形图，并将其输入到CNN模型中。结果表明，前额叶与额叶区域对BMT/DMT分类具有显著贡献；实时分类中64×64 RGB图像准确率最优，而相同尺寸的GRAY图像性能接近RGB图像且资源占用更低。虽然TAR特征在本研究中表现良好，但引入非线性特征可能会进一步提升脑动力学分析的深度。未来可考虑采用三维脑图像进行更精细的对比研究，并结合深度学习模型解释技术以深化认知负荷分析。

参考文献：

S. Karmakar, S. Kamilya, C. Koley and T. Pal, "A Deep Learning Technique for Real-Time Detection of Cognitive Load Using Optimal Number of EEG Electrodes," in IEEE Transactions on Instrumentation and Measurement, vol. 74, pp. 1-11, 2025, Art no. 2502311