对论文Systematic review of experimental paradigms and deep neural networks for electroencephalography-based cognitive workload detection的解读
摘要
本论文是对基于深度神经网络(DNN)的脑电图(EEG)信号认知工作负荷(CWL)估计研究进行了系统的文献综述。
本文的研究重点可分为两个主要方面:其一是识别当前常用于诱发认知工作负荷的实验范式 ;其二是分析在基于深度神经网络的认知负荷检测中常用的数据结构与输入形式。
综述结果表明,研究中发现,多种方法直接以脑电信号的二维矩阵原始形式作为分类算法的输入,从而绕过传统的特征提取与选择步骤。大多数研究将深度神经网络作为"黑箱"模型使用,仅有少数工作采用了可解释或可说明的深度神经网络模型来进行认知负荷检测。然而,这些算法大多用于事后数据分析与分类,只有少量研究尝试了实时认知负荷估计方法。此外,有研究指出,采用可解释的深度学习方法可能有助于揭示认知负荷在脑电信号中的神经相关特征,但该方向目前仍较为欠缺系统性探索。
本系统综述建议,在模型设计中应使用对时间依赖特征敏感的神经网络 ,并针对不同类型的深度神经网络选择合适的输入表示方式,以获得稳健的分类性能。同时,建议采用迁移学习方法 来提升模型在不同任务间的泛化能力(任务无关分类器);而通过跨被试数据的整合也可提升模型在不同个体间的泛化性(被试无关分类器)。
引言
人机交互(Human--Machine Interaction, HMI)的运行特性要求操作者持续保持情境感知、合理分配注意资源,并维持长时间的警觉状态。这种对认知资源的持续消耗会在人的心理系统中形成一定的负荷,这种负担通常被称为认知(心理)工作负荷(Cognitive Workload, CWL)。由于这些交互场景往往与安全性密切相关(如航空、交通或工业控制),因此有必要设计一种能够最优调节人机交互状态的机制,以降低因过高或过低认知负荷导致的操作失误风险。
目前已有多种用于评估任务诱发认知负荷的方法:其中,客观指标(如次级任务的反应时 Reaction Time, RT) 在该领域应用较为普遍;而传统方法则更多依赖于受试者的自我报告(主观量表),以估计其在任务中所体验到的认知负荷水平。
然而,主观评估与次级任务方法往往干扰主要任务的执行,因此并不适用于实时认知负荷评估。相比之下,近年来越来越多的研究采用神经生理信号 (如脑电图 EEG),因为它能提供一种客观、直接、被动且实时的方式来反映任务对认知资源的消耗。
然而,EEG 信号来源于复杂的非线性神经系统,通常伴随强噪声,因此解码难度较高。EEG 记录的信号本质上是大脑皮层中神经元群体的平均电活动,通过头皮表面的电极在相应脑区上方检测得到。由于 EEG 电极并非直接位于神经元电流源处,脑组织体积传导效应会显著影响头皮电极所观测到的神经活动信号。硬脑膜、颅骨及皮肤等组织会扩散神经电流,使得头皮电位信号在空间上被平滑化(即空间平均效应)。尽管存在上述技术挑战,EEG 仍被视为进行认知负荷评估的理想信号来源,因为其具有低成本、可携带性强及高时间分辨率等优势。
近年来,深度神经网络(DNN)的发展为利用 EEG 信号客观评估认知负荷水平带来了新的希望。深度学习算法能够直接从特征弱、非平稳的 EEG 信号中自动学习有效信息,在某些情况下甚至可以省略复杂的特征提取与信号预处理步骤 。与传统机器学习算法相比,深度神经网络具有更强的模式识别能力。这源于其多层参数结构能够在训练过程中自动学习信号中具有判别性的潜在特征,从而直接从原始 EEG 信号中提取有用信息。但需注意的是,DNN 模型容易发生过拟合。当模型深度与训练样本规模不匹配时,其在新数据集上的性能波动较大,从而限制了模型的泛化能力与通用性。
尽管如此,深度学习在 EEG 系统建模中仍具有显著潜力。它能够基于数据驱动的方式自动优化信号表示形式。在多个基于 EEG 的脑机接口(BCI)范式中,深度神经网络的分类性能已超越传统机器学习算法。尽管已有部分研究取得一定进展,但在认知负荷估计任务中,DNN 的表现总体上仍略逊于当前最优的支持向量机(SVM)分类器。然而,最新研究表明,即使在相对较小的 EEG 数据集上,深度神经网络也有可能达到与传统方法相当的性能。
背景
认知工作负荷
认知工作负荷(Cognitive Workload, CWL)通常被定义为任务所需的认知资源与个体可供调配的认知资源之比。在不同操作场景中,任务对认知资源的需求可能从极低(负荷不足)到极高(负荷过载)不等。当认知负荷过高或过低时,都会对人机交互产生不利影响,导致操作者及系统性能下降,严重时甚至可能引发灾难性后果,造成人员伤亡。
认知工作负荷由多种高级心理过程构成,包括注意力、警觉性、持续监测、感知、意识、决策、计划及执行等功能。它与刺激感知、工作记忆和反应行为等执行功能密切相关。由于认知负荷与人类工作绩效及其优化直接相关,许多复杂的操作环境(如航空航天、军事控制、工业监控等)均依赖对认知负荷的测量与调控来提升系统运行效率和安全性。
认知工作负荷的测量
主观与客观测量
认知工作负荷可以通过多种实验任务诱发,并采用不同测量方法加以检测。
由于认知负荷是一种主观体验现象,主观测量方法 通常通过任务相关的问卷或访谈,要求受试者在任务进行过程中或结束后自我评估所感受到的负荷程度。常见的主观测量工具包括**NASA 任务负荷指数(NASA-TLX)等标准化问卷,或研究团队自定义的工作负荷评估表。**
此外,认知负荷还可通过行为学和客观生理指标进行评估。典型的行为学测量方法是**"次级任务反应时法"** ,即通过测量操作者在主任务执行时对次级刺激的反应时间来推断负荷水平。主任务越复杂或认知需求越高,反应时间通常越长,表明认知负荷增加。此类方法主要通过观察主或次任务的反应变化来量化负荷强度。
EEG测量
然而,大多数独立评估方法会对任务执行产生干扰(具有侵入性),可能中断操作者的注意力与任务流程,难以实现对认知负荷的客观、连续量化。相比之下,神经生理指标(如 EEG) 在高认知负荷阶段会出现特征性变化,尤其体现在不同频段功率谱的变化上。因此,EEG 能够作为一种客观、可量化的负荷检测信号来源。但 EEG 信号在不同实验会话和不同受试者之间差异显著,导致信号分析的稳定性较低。即使经过降维处理,其特征仍具有显著的非平稳性 。大量研究独立验证了 EEG 不同频带振荡在不同负荷水平下的特征性变化。因此可以认为,EEG 的频谱特征中蕴含着预测大脑认知状态的重要信息。
此外,EEG 信号的高维特性使得研究者必须先进行特征提取与降维分析,而特征提取过程往往成为脑机接口信号分类性能的主要瓶颈 。几乎所有先进的 BCI 分类算法在应用到新数据时,都需要经过**信号校准(calibration)**以维持分类性能的可靠性。这些挑战要求研究者在实验设计和信号分析前进行充分的预处理和优化。
为应对 EEG 信号的非平稳性问题,一些研究采用了简化策略,即将静息态振幅作为该会话的基线,通过从任务信号中减去平均静息态活动,来控制单次实验中的非平稳效应。
当前挑战
基于 EEG 的认知工作负荷(CWL)检测目前仍存在若干关键限制,由此形成了明显的研究空白,主要包括以下三个方面:
(1) 信号特征的会话间与个体间差异(非平稳性) ------即使在相同刺激条件下诱发相同脑活动,不同实验会话或不同受试者之间的 EEG 特征仍存在显著差异;
(2) 缺乏理论模型来解释跨个体神经活动的持续相似性 ------尽管同一受试者的 EEG 信号内部变化很大,但不同个体间却呈现一定稳定的活动模式,目前缺乏能解释这一现象的模型;
(3) 尚未就最优分类算法及最合适的信号特征达成共识------不同研究在算法选择与特征提取方面差异较大,缺少统一标准。
研究方法
文献调研
该综述检索关键词共分为三组,每组对应本综述讨论的一个特定主题:
-
第一组主题:认知(Cognition)
在现有文献中,"Cognitive Workload (CWL)" 与 "Mental Workload (MWL)" 常被视为同义词。
同样地,"cognitive states(认知状态)" 与 "mental states(心理状态)" 这两个术语在研究领域中也常被交替使用。
-
第二组主题:信号处理(Signal Processing)
该主题限定为 脑电图(EEG)信号。多数研究使用关键词 "EEG" 或其全称 "Electroencephalogram" 进行标注。
-
第三组主题:建模算法(Modeling Algorithms)
该主题进一步分为三个子类别,因为在多数研究中,该主题通常以三词组(trigram)的形式出现,如表 1 所示。本研究在此主题下使用了三种关键词变体:
-
"Deep Learning Algorithm(深度学习算法)"
-
"Artificial Neural Network(人工神经网络)"
-
"Deep Neural Network(深度神经网络)"
-
研究问题
(一)认知负荷诱发的实验范式
a. 不同的实验范式最多可以诱发出多少个不同的认知负荷水平 ?
b. 不同的实验范式通常会诱发出哪些常见的认知状态 ?
c. 各类认知负荷诱发范式中采用了哪些实验环境与任务场景?
(二)用于认知负荷检测的深度神经网络
a. 用于检测认知负荷水平的网络类型有哪些?这些网络在识别特定认知状态 时是否存在特别的选择或偏好?
b. 各类主流网络使用了何种输入数据格式 ?在输入形式的设计上是否存在特定网络架构相关的要求或差异 ?
c. 基于深度神经网络构建的分类器是否具有可泛化性 ,能够实现对认知负荷的普适检测?
关注参数
-
用于诱发认知负荷的实验范式;
-
实验实施环境;
-
研究中考虑的认知负荷水平数量;
-
所诱发的认知状态;
-
所采用的深度神经网络架构类型;
-
输入数据形式,包括:
a. 输入类型(input type),
b. 特征类型(feature type);
-
网络的可泛化性;
-
所采用的可解释性方法;
-
用于分类任务的其他深度学习机制;
-
研究所使用的数据集。
结果
认知负荷诱发的实验范式
认知负荷研究中使用的实验范式有哪些?
(1)心算任务(MA)
心算任务是认知负荷研究中最常见、最简单且具有一定标准化设计的任务之一 。受试者需要进行较为复杂的心算操作,以此产生认知负荷。该任务通常要求受试者在规定时间内不断执行数学运算,例如从一个较大的初始数中不断减去固定常数。
这一实验设计在多个研究以及广泛使用的开源数据集中被采用。表 2 列出了使用心算任务的相关研究,其中大多数研究均基于此任务。此外,表中还包含了与 MA 类似的任务,这些任务通过想象任务(imagery-based tasks)诱发认知负荷,而无需明确的外部刺激。

(2)N-back 任务
另一个被广泛应用的标准化实验范式是N-back 任务。在该任务中,屏幕上会向受试者呈现一系列数字或图形。受试者需要判断当前刺激是否与前 N 次出现的刺激相同,从而产生不同水平的工作记忆负荷。
N-back 任务存在多种变体,其差异通常体现在刺激类型上,例如空间型、语言型或数字型刺激。
(3)自动化舱内空气管理系统任务( AutoCAMS)
AutoCAMS是一种计算机化的通用仿真环境,用于模拟航天器生命支持系统 的过程控制软件。该任务由于与多种现实操作场景(如工业过程控制系统)具有高度相似性,因而被广泛用于认知负荷诱发研究。AutoCAMS 以计算机程序的形式实现,能够模拟具有不同自动化程度的操作环境。受试者需要在实验中监测仪表读数并进行实时决策。
通过调整系统中自动化子系统的数量及设置计划性自动化故障,AutoCAMS 能够有效地模拟不同等级的认知负荷水平 。由于其通用性与任务生态效度较高,大约有 31% 的相关研究采用了该范式。
(4)多属性任务电池(MATB)
MATB 是另一种与 AutoCAMS 类似的操作员任务范式,用于模拟飞机驾驶 等典型操作情境。该任务系统由多个需要同时或按时间顺序执行的子任务 组成,不同任务组合可用于控制认知负荷水平。
典型的子任务包括:保持飞机航迹(trajectory maintenance);监测传感器指标(sensor monitoring);管理系统资源;处理模拟的外部通信事件。
MATB 是基于计算机的仿真任务,被广泛应用于认知负荷研究,并在多个开源数据集中反复出现。
(5)飞行模拟任务(Flight Simulation Tasks)
飞行模拟任务也是一种常用的操作型实验范式,旨在通过飞行模拟器重现飞行员在实际操作中经历的工作场景 。实验通常包括多种典型飞行情境,如:起飞与降落;正常巡航飞行;模拟紧急情况(如恶劣天气或设备故障)。通过这些情境变化,可以有效地诱发不同等级的认知负荷水平。
(6)车道偏离任务(Lane-Deviation Task)
车道偏离任务旨在模拟长时间单调驾驶的情境,用以研究认知负荷不足及由此导致的驾驶员认知状态变化 。在该任务中,受试者被要求长时间在虚拟高速公路上驾驶,以逐渐从"清醒"状态过渡到"困倦"状态。实验通常引入一个次级任务,并通过其反应时间来量化困倦程度 。
当确认受试者进入困倦状态后,系统会模拟一次车道偏离事件------车辆偏离当前行驶车道,类似驾驶员打瞌睡的情况。受试者需要在察觉偏离后立即通过方向盘纠正路线。若受试者处于困倦状态,其反应时间会明显长于清醒状态。研究者通常将反应时间与 Karolinska 困倦量表(KSS) 等标准化量表进行回归分析,以定量评估困倦水平。
最终,实验通过设定阈值,将困倦程度划分为三种认知状态:清醒;困倦;入睡
实验范式的分类体系
一项近期的综述研究提出了一个关于认知负荷(CWL)诱发范式 的分类体系,根据研究的应用目的,将这些实验范式划分为两大类:认知范式;操作范式
根据该分类体系:
-
认知范式 旨在通过受控实验室条件 进行设计**,**使用独立刺激来研究认知与认知负荷的理论机制。例如:心算任务;N-back 任务;Sternberg 工作记忆任务;SIMKAP 任务
-
相对地,操作范式 被设计为模拟现实操作环境,其目标是尽可能接近工业应用场景,以研究人在复杂任务中的操作性认知负荷。例如:飞行模拟任务;驾驶模拟任务;多属性任务电池;自动化舱内空气管理系统。
实验环境
-
增强现实(Augmented Reality, AR)环境,
-
虚拟现实(Virtual Reality, VR)环境,
-
计算机仿真(computer simulations),
-
视听刺激(Audio-Visual, AV stimuli),
-
实验室仿真任务(laboratory simulations),
-
想象任务(imagination tasks)。
可获取数据集如下:
-
STEW --- Simultaneous Task EEG Workload Dataset(多任务脑电工作负荷数据集);
-
PBCI --- Passive BCI Dataset(被动脑机接口数据集);
-
Kaggle CWL Dataset --- Kaggle 平台上的认知工作负荷数据集;
-
EEGMAT --- EEG during Mental Arithmetic Task(心算任务脑电数据集);
-
KAN Dataset --- Keiron and Aunon 数据集;
-
SEED-VIG Dataset;
-
DEAP Dataset。
工作负荷水平
认知范式
在连续工作负荷量表上**,最基本的区分通常是"有负荷/无负荷"的二元划分:**即受试者在静息状态下不经历任何认知负荷,而在响应刺激时会产生一定的认知负荷。
不同研究对工作负荷水平的划分数量不同,从在常见的连续量表上,工作负荷一般被划分为低、中、高三个层级。
操作范式
在操作性范式中,AutoCAMS 任务提供了最高分辨率的工作负荷分级。该范式有区分七个认知工作负荷水平的能力。不过,本研究所回顾的大多数文献仅使用了 AutoCAMS 可提供的七级中的三到四个等级。
此外,本综述中还发现了一些特定的飞行模拟任务 ,能够区分四级或五级 工作负荷水平;而 MATB 则通常用于诱发两级或三级的 CWL。
在较低分辨率端,基于建筑作业的实验范式**** 仅用于产生二元区分 的工作负荷水平。**** 类似地,交通驾驶任务与车道偏离任务也主要用于区分两级认知负荷。
需要特别指出的是:
车道偏离任务 通常用于诱发特定的认知状态(cognitive state) ,
而不仅仅是产生低强度的认知负荷。
AutoCAMS 与 MATB 由于具有高度模块化(highly modular nature),因此特别适合用于生成高度分级的 CWL 水平。
认知状态

模型泛化性如左下图所示,被试内模型最为常见。左上图展示了不同认知状态的分布,可见主要研究集中于不同的工作负载水平。中下图展示了不同实验范式的分布,其中操作员范式最为普遍。右下图展示了不同网络结构在各实验范式中的应用情况,CNN 和 RNN 通常被广泛使用。右上图则展示了不同工业应用领域的分布。中上图显示所有认知状态均已被跨任务泛化性研究过。
深度神经网络在认知工作负荷检测中的应用
用于检测认知负荷的DNN类型
主要引入的深度学习机制
残差连接
残差网络的主要作用是缓解梯度消失问题,从而允许网络更深层次的训练。
注意力机制
在部分研究中,注意力机制被用于特征选择阶段 ,即在输入层之前筛选出关键特征。
但更多的研究将注意力机制用于整合中间层表示,即在深层特征空间中,通过加权乘积的方式融合多个层的高维特征,从而确定每个特征在最终预测中的贡献度。
多路径结构
主要引入的深度学习策略
集成学习
集成学习的思路是在数据的不同子集上训练多个分类器 ,再将这些分类结果整合后得到最终预测。
这种方法特别适用于 EEG 信号,因为 EEG 数据在不同被试和不同实验会话之间存在较大的变异性。
迁移学习
网络架构
卷积神经网络(CNN)27%
CNN是目前在认知工作负荷(CWL)检测研究中最常用的网络结构。
有多项研究明确指出,CNN 架构的"即插即用"特性及其成熟的可用性 是选择该网络进行 CWL 检测的主要动机之一 。此外,CNN 能够从以二维或三维矩阵形式组织的数据中识别空间模式,其优异的泛化能力也可能是其被广泛采用的重要原因。
循环神经网络(RNN)17%
RNN 的使用动机主要源自其循环结构的时间依赖性建模能力,即能够有效捕捉 EEG 信号的时间序列特征,这一特性在多项研究中被明确提及。
此外,大约 21% 的研究采用了混合神经网络 ,另有约 13% 的研究使用了自编码器(AE) 。在所有混合网络中,均为 CNN--RNN 组合架构 。值得注意的是,在所有混合 CNN--RNN 网络中,网络结构均采用CNN 模块输出接入 RNN 模块的顺序。
本次系统综述还发现了一个采用基于 Transformer 的架构的研究。该模型首先使用 CNN 编码模块提取高维表示,随后利用基于Transformer的空间嵌入模块进行解码,从而建模复杂的空间关系。
其他神经网络类型
-
多层感知机/人工神经网络( MLP/ANN) --- 占比约 5%;
-
深度信念网络( DBN) --- 占比约 6%;
-
生成对抗网络( GAN) --- 占比约 2% ;
-
图神经网络(GNN) --- 占比约 2%。
这些不同类型的深度神经网络在本综述中的总体分布如图 6 所示。
进一步分析发现,在不同的实验范式(如认知范式、操作范式、驾驶或飞行模拟等)中,并不存在明显的网络架构偏好。换句话说,CNN、RNN 及其他网络均被广泛应用于各种实验情境中。

信号特征提取
在认知工作负荷(CWL)研究中,常用的 EEG 特征可大致分为六大类:"频谱特征"、 "非线性特征"、 "时域特征"、 "空间特征"、 "统计特征"以及"其他"。
大多数研究使用了来自多个类别的特征组合,只有极少数研究仅选择单一特征类型。由于多数研究采用混合特征,每篇论文在特征统计时分别计算在每一类特征中的出现次数。在这些未显式进行特征提取的研究中,大多数仍然使用了信号滤波或** 伪迹去除**等预处理方法,以净化 EEG 数据。****
频谱特征
在采用特征提取步骤的研究中,约 38% 的研究 从 EEG 信号中提取了频谱特征 。常见方法包括利用傅里叶变换和离散小波变换计算功率谱密度。
其中,θ(theta)、α(alpha)和 β(beta)波段 是最常被提取的频率范围,因为这些波段被广泛认为是 CWL 检测中最具相关性的 EEG 频率成分。部分研究提取了所有频率子带,但多数研究在预处理阶段通过低通滤波排除了 γ(gamma)波段,以避免高频噪声干扰。
非线性特征
非线性特征是第二常见的特征类型,占比约 10%。这些方法的使用动机源于 EEG 信号固有的非线性动态特性,研究者期望基于熵的度量能显著提升分类性能。
例如,研究发现,当 RNN 未接收非线性特征作为输入时,其分类性能略有下降。本综述中最常见的非线性特征包括:近似熵 ;Shannon 熵 ;谱熵 ;非线性功能连接特征 ;互信息。一般而言,非线性特征往往与其他特征类型融合或拼接后再输入网络;但也有研究仅使用非线性特征进行分类模型训练。
统计特征
多数研究仅选择若干典型统计量------均值、方差、偏度和峰度 ,并在输入网络前将这些统计特征拼接成最终输入向量 。约 15% 的研究 使用了除时域信号外的其他时间特征 ,如自回归系数 和移动平均算法 。在"其他"类别中,一项研究探讨了分形特征 ,另有两项研究使用了功能连接性与图特征。
DNN适合哪种特征
-
频谱特征 与非线性特征几乎被所有类型的 DNN 采用。由于这两类特征在 EEG 分析中具有坚实的理论基础,因此被广泛作为输入。
-
RNN 更倾向于直接使用原始 EEG 信号作为输入,而不进行特征提取;
-
CNN 同时偏好使用原始信号 与频谱特征;
-
图神经网络(GNNs)与生成对抗网络(GANs)未发现使用上述两种特征,可能与其网络架构设计有关;
-
深度信念网络(DBNs)与自编码器(AEs)通常不使用时域或时间特征,而是更倾向于输入拼接后的特征向量。
常用网络采用了哪些输入格式?
在本次分析所综述的文献中,主要观察到三类 EEG 输入数据的构建形式:特征向量 、图像矩阵和EEG 矩阵。
(1)特征向量
在这些特征向量中,可分为一维(1D)和二维(2D)两种形式:
-
1D 特征向量 是指将所有从数据中提取的特征简单串联而成,各特征之间不存在时间或顺序上的依赖关系,如所示;
-
2D 特征向量在某些情况下保留了二维矩阵结构(例如频谱分解矩阵),但本质上仍是特征的拼接结果。
总体而言,特征向量格式主要被以下网络采用:自编码器(AEs) 、深度信念网络(DBNs)和人工神经网络(ANNs)。
(2)图像矩阵
图像矩阵是一种通过各种信号变换方法,将 EEG 信号转换为类似图像的数据形式(可为单通道或多通道图像)。
这些"EEG 图像"大多由时域信号经频谱变换 (如傅里叶或小波变换)得到。研究者利用多种脑电拓扑投影与插值算法 ,将 EEG 数据转换为单通道或多通道图像。不同研究之间的差异主要体现在特征提取方式 与信号映射方法上。
在本综述中,这些由 EEG 信号生成的"图像数据"几乎仅被 CNN 类网络使用。
(3)EEG 矩阵
部分研究直接使用 EEG 信号的矩阵形式作为输入,并将其视为二维图像。然而,这种处理方式并不完全符合 CNN 模型的假设------因为 EEG 通道(各电极信号)的排列顺序,并不遵循其在头皮上的空间拓扑分布。
一些 CNN 通过采用深度卷积 、通道卷积 、可分离卷积或扩张卷积 ,来适应 EEG 信号中的时序依赖性。在此类研究中,EEG 矩阵被直接输入 DNN ,基于假设:深层网络结构能够学习并建模 EEG 信号的高噪声特性。
时域信号通常用于 RNN ,但也偶尔被应用于 CNN 。有些研究使用一维 EEG 向量 ,而另一些则将多个二维帧拼接成三维 EEG 矩阵。
(4)不同网络对输入格式的偏好
进一步研究发现,不同类型的 DNN 在输入格式上具有一定倾向性:
-
图像型输入仅被 CNN 及其混合结构(如 CNN--RNN)采用;
-
时域输入主要用于 MLP、CNN、RNN 及其混合模型;其中,时域输入最适合 RNN,而其他网络因缺乏建模时间依赖的能力,难以有效利用纯时序信号;
-
AEs、DBNs 和 ANNs几乎只使用特征向量作为输入;
基于 DNN 的分类器是否具有普适性的泛化能力?
在所调研的研究中,最缺乏泛化能力的模型 是被试特定模型 ,约占全部研究的 43%。这些研究中的许多仅针对每位受试者记录一次 EEG 实验会话数据,因此其模型仅能在单一被试与单一实验情境下发挥作用。
进一步的泛化层次是跨会话模型 ,约有 6% 的研究采用了此类检测策略,其目标是使模型能在同一被试的不同实验会话中保持稳定性能。
约 40% 的研究提出了跨被试分类器 ,这表明在被试之间及不同实验会话中具有较高的泛化性。
然而值得注意的是,多数此类研究在整合不同被试/会话的数据时 ,采用了相对简单的假设 ,主要目的是为了增加训练样本数量。在数据整合过程中,这些研究并未充分考虑 EEG 信号在不同会话与被试之间存在的非线性统计分布偏移,这可能影响了模型的真实泛化性能。
约 9% 的研究达到了最高层次的泛化能力,它们构建了跨任务分类模型 ,能够在不同任务之间识别认知负荷水平 。这些研究通常在被试特定条件下训练模型 ,但模型能够成功地对多种任务的信号 进行分类。这类分类器可能有效地捕捉了跨任务的普适性判别特征,从而在不同认知负荷水平之间实现准确区分。
(1)跨任务泛化的三种实现方法
在所回顾的研究中,观察到三种主要的跨任务泛化实现路径:
-
单任务训练 + 异任务测试
模型在一种任务类型上训练,然后在不同任务上进行测试;
-
多任务联合训练
将多种任务的数据合并,用于模型训练与验证。但结果显示,这类模型整体表现并不稳定:当训练与测试任务类型相似(如均为认知范式任务)时,结果尚可;但当训练任务与测试任务差异较大(如认知范式 vs 操作范式)时,分类性能显著下降。
-
迁移学习方法
利用迁移学习机制提升模型的跨任务泛化能力 。鉴于 EEG 信号的动态性与高变异性,该方法被认为是最合适的策略。
(2)跨任务与跨被试泛化的区别
需要注意的是,多源数据融合 虽然有助于模型在新被试或同一被试新会话中的泛化性能,但跨任务分类 则需要额外的机制来学习不同任务中普适性的认知负荷判别特征。
讨论
认知负载实验范式的差异与研究重点
分析发现,不同领域的研究所采用的 CWL 诱发任务高度依赖具体的应用场景。
不同研究中工作负荷的等级划分差异很大。虽然最多有研究区分了七个负荷等级,但大多数仍采用二分类(工作负荷/无负荷)或三分类(低/中/高负荷)设计。
-
在二分类任务中,DNN 的表现往往最优;
-
在三分类任务中,DNN 的性能与传统机器学习算法相当。
神经影像角度看,"无工作负荷"条件下前额叶激活最弱,EEG 的 α、β 波段几乎无能量,而高负荷状态则具有显著高频谱能量。
模型可解释性
多数研究将 DNN 当作黑箱模型,但部分研究开始引入可解释性方法,如:
-
特征图可视化 :
查看卷积层或 LSTM 的激活响应。
-
t-SNE 映射与散点图 :
用于可视化类别分离情况。
-
类激活图(CAM)与梯度加权 CAM(Grad-CAM) :
展示同组 EEG 样本在某工作负荷下的共同激活模式。
这些方法有助于发现跨被试的普适 EEG 特征 。建议未来研究除准确率外,还应报告可解释性指标 。值得探索的新方向包括:序列遮蔽等时序解释技术。