拓扑感知多模态融合在神经动态表征学习和分类中的应用

摘要

近年来，脑电图(EEG)和近红外光谱(fNIRS)等多模态神经成像技术在脑机接口(BCI)和神经病理诊断中的应用得到了广泛应用。如下图顶部所示，大多数现有方法假设观察结果为独立同分布(i.i.d.)，但忽略了个体之间的差异。在融合BCI信号进行判别特征学习的同时，对受试者组进行建模以保持拓扑信息是一项具有挑战性的工作。本文介绍了一种基于拓扑感知图的多模态融合(TaGMF)框架来对肌萎缩侧索硬化症(ALS)和健康个体进行分类，如下图底部所示。本研究框架基于图神经网络(GNN)，但具有两个独特之处。首先，根据个体间、个体内和组间关系，提出了一种新的拓扑感知图(TaG)来对受试者组进行建模。其次，每个受试者的EEG和fNIRS信号的学习表征允许在TaGMF优化的同时探索不同的融合策略。本研究分析证明了基于图的融合方法在多模态分类中的有效性，与传统方法相比，其性能提升了22.6%。

图形摘要

前言

研究人员一直在积极探索多种测量方法，以支持有效解码神经活动，从而改善BCI系统，并开发了多种技术(如脑电图(EEG)和功能性近红外光谱(fNIRS))来研究大脑信号。大多数研究进行的是单模态探索，使用EEG或fNIRS来学习和检测神经反应。然而，由于技术限制和大脑神经处理的复杂性，这些模态各自捕获的大脑功能信息是有限的。

近年来，多模态融合技术在BCI和神经病理诊断等领域得到了广泛应用。在这方面，整合EEG和fNIRS信号提供了两种经济有效的信息来源：分别来自EEG脑电活动和fNIRS脑血流动力学反应。早期使用EEG-fNIRS融合进行分类的研究表明，其性能优于单模态。这些融合方法通常遵循独立同分布(i.i.d.)假设，并使用决策级或特征级融合策略来集成特征并对观测值进行分类。

近期的探索开辟了使用基于图形的方法对大脑信号进行建模的新领域，这些方法在分析、分类和解释神经系统疾病，以及在阿尔茨海默氏症、自闭症、抑郁症和焦虑症等疾病预测方面取得了令人满意的结果。此外，大脑信号可以根据区域连接性用图来表示大脑反应中的潜在网络。图可以在较大群体中表示为拓扑结构，其中节点(即个体)根据其相似性进行连接，或者作为抑郁症检测等已知挑战的知识基础。虽然基于图的模型通过区域连接提供了对神经动态的见解，但本研究侧重于使用图神经网络(GNN)对EEG和fNIRS信号进行端到端表征学习框架。这一决定源于fNIRS中功能连接解释的挑战，由于脑外血流动力学相互作用可能会混淆真正的神经活动，特别是在没有短通道来减轻这些效应的情况下。通过整合EEG和fNIRS数据进行表征学习，可以利用这些模态的互补优势，从而促进神经影像研究中功能连接方法的新进展。

作为对之前工作的延伸，本研究还探索了基于图引导的BCI融合，用于被试组(即健康/患者)及其分类。图中的局部平滑假设使我们能够对非独立同分布的不同个体和群体进行表征学习。该框架基于图神经网络(GNN)进行表征学习，同时可以通过各种分类器来验证学习到的特征。GNN方法通常将节点特征及其交互视为边，以聚合局部邻域上的节点特征并逐层追求最优表征。GNN的有效性取决于准确反映图中个体和观测值之间的拓扑结构。假设每个受试者有多个观测值，在构建GNN图时，将考虑几种不同的关系，包括个体间、个体内和组间关系。具体而言，个体内关系表明同一受试者的观测值之间存在强相关性。然而，据所知，这些概念在先前的研究中尚未得到彻底探索。

本研究将模态整合和跨被试信息结合在一个框架内。这种双重方法背后的动机源于本研究的目标，即开发一种全面的策略，不仅增强多模态神经影像数据的整合，而且解决不同被试之间固有的变异性和分布差异------这是神经科学研究中的常见挑战。这种整合可以更全面地提高分类和表征学习性能，不仅利用了多模态的互补信息，同时考虑到了个体数据的独特特征。

为此，本文提出了基于拓扑感知图的多模态融合(TaGMF)，这是一种用于特征提取的可学习GNN模型。与现有的研究相比，TaGMF通过探索超出单一主体神经动态建模范围网络上的主体关系，以追求更好的表征，同时网络优化的是不同级别的单模态和多模态融合策略，以考虑来自个体的多模态数据。特别是，本研究考察了两种融合策略，即早期融合和晚期融合，并将它们与分类任务中的单模态数据进行比较。为了更好地展示TaGMF方法，本研究广泛评估了从健康对照组(HC)和肌萎缩侧索硬化症(ALS)受试者收集的EEG和fNIRS数据。

方法

图1展示了TaGMF方法，将EEG和fNIRS数据集成到多模态图形表征中。左侧表示EEG和fNIRS脑信号的采集以及随后的特征提取过程。中间部分描述了具有三种类型边的图结构：(i)个体内部的边连接的是同一个体内的观测值；(ii)个体间的边连接的是不同个体，以深入了解个体之间的共享模式；(iii)组间的边连接的是健康组和患者组的受试者。TaGMF利用图结构来提取有意义的特征，这些特征用于学习下游分类任务所必需的判别模式。

图1.TaGMF框架概览。

A.数据分析

1)参与者：本研究共招募了18名受试者(包括9名ALS患者和9名健康对照者(HC))。其中，ALS患者中有7名是男性，平均年龄为56.8岁。ALS患者的ALS修订版功能评定量表(ALSFRS-R)得分分别为0、4、4、23、22、39、41、33、26，平均得分为21.3±15.5(满分48分)。9名年龄匹配的健康对照者中有4名是男性，平均年龄为60.7岁。对照组参与者报告无视觉、精神或物质相关疾病史，这些疾病可能会影响数据收集过程中的结果或表现。数据采集是在罗德岛大学(URI)进行的，获得了机构审查委员会(IRB)批准以及所有受试者或其护理人员的书面同意。

2)采集：使用安装有EEG电极和fNIRS光极的帽子同时记录EEG和fNIRS信号。使用g.USBamp放大器(g.tec Medical Tech.，Schiedlberg，Austria)，以256Hz的采样率记录EEG数据。使用NIRScout系统(NIRx Inc.)，以7.81Hz的采样率记录两种波长(760nm和850nm)的fNIRS数据。这种设置使我们能够以最小的干扰捕获神经反应的电血流动力学特征。使用16个EEG和16个fNIRS通道记录数据。EEG通道位于AF3*、AF4*、F1*、Fz*、F2*、T7、Cz、T8、P7、P3、Pz、P4、P8、PO7、PO8和Oz，覆盖了前额叶、额叶、中央、顶叶、颞叶和枕叶区域。fNIRS通道由8个发射器和7个探测器组成，其中发射器位于Fpz、AF3、AF4、F3、Fz、F4、CP5和CP6，探测器位于Fp1、Fp2、AFz、F1、F2、P5和P6，覆盖前额叶和额叶区域。图2显示了ALS与对照组信号的比较，以fNIRS的F1-Fz通道和EEG的Oz通道为最具代表性的通道，对所有受试者进行平均。

图2.ALS与对照组信号的可视化。

3)预处理和原始特征提取：对于EEG数据，每组(即HC和ALS)各有9名参与者。每个参与者有2个runs，每个run包含14个试次。因此，总共记录了每组9×2×14=252个观测值/样本。EEG信号经过0.3-35Hz的带通滤波，以消除基线漂移和伪影，并进行目视检查以排除任何异常值。针对任务/事件相关分析的分段是通过分离刺激呈现后的特定时间窗来实现的，以确保提取的特征直接与任务/事件相关。将数据分解为频谱图，得到以下4个不同频带的EEG频谱特征，即δ(1-3Hz)、θ(4-7Hz)、α(8-12Hz)和β(13-30Hz)。因此，本研究总共获得了16×4=64个频谱特征，其中16是通道数，4是频带数。使用分别对应于三个最大峰值和两个最小峰值的五个事件相关电位(ERP)特征来获取EEG时序特征。因此，共得到16×4=64个脑电时序特征，其中16是通道数，4是ERP成分数。在这里，本研究将通过EEG频谱分析得到的EEG特征称为EEG功率，而通过EEG时域分析得到的EEG特征称为EEG事件相关电位(ERP)。

对于fNIRS数据，分段方法与EEG类似，每个组的观测/样本数量相当。对fNIRS数据应用0.01-0.2Hz的带通滤波器，以去除由呼吸和心脏活动产生的生理噪声。随后，使用修正的比尔-朗伯定律处理原始光强度数据，提取氧合血红蛋白(HbO2)的浓度变化。该过程通过分析每个通道刺激后0-6s的时间窗，针对每个通道捕获血流动力学响应，以确保提取的特征准确反映了任务/事件引起的血流动力学活动。总的来说，fNIRS数据包含16×2=32个特征，其中16是通道数，2是特征类型数。

4)实验方案：在数据收集过程中，受试者参加了基于常用视觉oddball范式的视觉心理测试，并完成了数学任务。该范式的完整描述见Borgheai等人(2019)的研究。这些任务会引发与视觉oddball模拟和心算运算相关的电生理和血流动力学反应。

5)训练/验证分割：使用单位范数对原始EEG和fNIRS特征进行标准化，并划分为训练集和测试集。数据分为五个部分，其中训练集和测试集不包含来自同一受试者的观测值。本研究对18名受试者(9名HC和9名ALS)进行了504次观察。在9名HC受试者观察中，7名受试者及其7×28=196个观测值用于训练，其余2名受试者及其2×28=56个观测值用于测试。ALS组应用相同的数据分割策略。

B.基于拓扑感知图的多模态融合

接下来，本文将详细介绍基于拓扑感知图的多模态融合(TaGMF)框架，如图3所示。TaGMF基于经典的GNN模型，但专门设计了用于处理受试者组的多模态数据。首先，本研究提出了一个拓扑感知图(TaG)来精确地展示观测值之间的成对关系。其次，本研究探索了两种融合策略(即早期融合和晚期融合)，以解释每种模态的共同和独特的拓扑信息。

图3.TaGMF框架的流程。

1)拓扑感知图构建：卷积网络(GCN)等GNN在训练和推理中需要使用图；然而，内置图形并不总是可用。为此，本研究开发了一种适用于受试者组神经动态建模的通用图构建标准，称为"拓扑感知图(TaG)"。TaG本质上是一种非参数和知识驱动的图。首先，本研究应用k最近邻(KNN)方法来探索观测值及其邻居，以构建一个无向KNN图，其中仅连接邻居(通过相似性测量)。其次，关于每个受试者及其观测值的知识可以为KNN图提供额外的连接，特别是对于没有标签信息的测试数据。例如，同一受试者的观测值可以互相连接。第三，大多数GNN以直推式训练，这意味着图包含了模型训练过程中交织在一起的所有观测数据，包括训练数据(有标签)和测试数据(无标签)。本研究的TaG包括三个子图，以适应数据的不同方面并构建不同的连接方式，如下所述。

训练图G1：训练图是针对HC和ALS训练数据构建的，使用(1)标签信息和(2)KNN图学习到的连接。首先，连接相同标签的数据，分别生成HC和ALS观测值的两个全连接图。其次，进一步将KNN准则应用于全连接图以生成训练图。这相当于HC/ALS全连接图与它们各自的KNN图的交集。图4a展示了一个EEG功率训练图示例。由于与稀疏KNN图相交，该图总体上是稀疏的。

图4.EEG功率数据的(a)训练图、(b)测试图、(c)同一性图、(d)统一图。

测试图G2：没有标签的测试数据只能应用KNN准则为观测值创建连接。请注意，这些连接可能会产生测试-测试数据连接或测试-训练数据连接，并且可能会通过图形将标签从训练传播到测试数据。与训练图不同，测试图还可能会由于高度相似性而在HC和ALS观测值之间引入不必要的连接。测试图示例如图4b所示。

同一性图G3：相同受试者的观测值共享标签，因此它们应该彼此连接。这对于判别信息有限的测试图特别有用，并生成如图4c所示的全连接子块。所形成的"团"有利于判别表征学习和分类，因为相同受试者的观测值在测试时被视为一个组。这本质上类似于通过一组测试数据的预测确定的多数投票准则，因此可能提供更好的性能。

统一图G：三个子图的并集：G=G1∪G2∪G3能够整合非参数KNN图和受试者组信息。相同EEG功率数据的统一图示例如图4d所示。

2)TaGMF学习：设X∈RN×d为BCI特征，包括训练和测试数据，其中N是观测总数，d是原始特征的维数，G∈RN×N是构建的TaG图。TaGMF旨在通过训练学习第l层中的GNN参数Wl。前向传递通过函数逐层进行：Yl=g(Yl−1，G)，其中Yl是第l层的特征，g是ReLU激活函数。特别是，每一层通过图卷积聚合节点特征并传递到下一层，如下所示：

其中

是通过添加单位矩阵IN∈RN×N而形成的自环邻接矩阵，

是表示每个节点度的对角矩阵。

也被认为是谱聚类等方法中的归一化图拉普拉斯矩阵，以在不同簇之间保持良好的平衡。这里Y0=X使用原始特征作为输入，最终输出Z通过softmax函数产生：

其中Z是用于分类的归一化概率输出。

3)基于TaGMF的特征提取：与传统使用GNN作为分类器不同，本研究将TaGMF视为表征学习模型来提取判别特征。这使我们能够利用学习到的TaGMF特征来探索不同的分类器，并且在训练样本数量有限的情况下通常可以获得更好的性能。为了提取TaGMF特征，首先像以前一样训练TaGMF，然后将数据传递给学习到的GNN模型，并从第二层到最后一层提取特征。学习到的训练和测试数据特征将用于训练各种分类器。

4)融合策略：在TaGMF中，本研究提出了两种融合机制：早期融合和晚期融合。在早期融合中，多模态数据的原始特征被连接起来形成新的向量，基于该向量可以学习一个共同的TaG。然后将TaG和原始特征传递给GNN进行训练和特征提取。然而，在晚期融合中，每种模态都单独学习一个GNN模型来提取特征。然后将每种模态的GNN特征连接起来。早期和晚期融合方法如图3所示。

C.与经典方法的比较

通过考虑经典方法使用的不同特征和分类器来详细说明基线。首先，将TaGMF特征与原始特征以及像lasso正则化这样能够选择最显著且非冗余稀疏特征的特征选择方法进行比较。其次，探索了各种分类器，包括Softmax分类器、支持向量机(SVM)、最近邻(NN)和决策树(DT)。同时，对比了单模态和多模态特征在分类任务中的表现。这提供了TaGMF和许多其他经典方法之间的全面比较。

实验结果

A.原始特征与TaGMF特征

图5(a)-(d)比较了直接从原始信号中提取的原始特征和本研究所提出的TaGMF特征。可以看出，TaGMF特征在所有三个分类器中都比原始特征产生更高的精度，并且本研究提出的方法在分类器SVM、NN 和DT上的性能分别提高了约22%、15%和19%，如图所示5(d)。值得注意的是，SVM在分类精度方面优于NN和DT。

图5.使用三种分类器(a)SVM、(b)NN和(c)DT，比较了原始特征和TaGMF特征在单模态数据晚期融合策略中的精度。(d)在多模态数据情况下，使用Softmax、SVM、NN和DT四种分类器的TaGMF特征。

B.单模态与多模态

图5应用晚期融合评估了在单模态和多模态设置下的TaGMF特征。正如假设的那样，与每个单模态信号(图5(a)-(c))相比，使用TaGMF提取的多模态特征进行分类的性能明显更好(图5(d))，分别在三种分类器(SVM、NN和DT)上实现了15.9%、19.7%和22.6%的提升。SVM在所有模态下均表现出较强的性能。结果还表明，TaGMF特征在SVM上的表现比在传统GNNs中应用的默认分类器Softmax更好。

C.早期和晚期融合策略

图6比较了采用传统分类器的多模态TaGMF特征的早期和晚期融合。如图所示，在SVM、NN和DT中，晚期融合方法比早期融合方法分别提高了9.29%、14.9%和11.7%。虽然这两种方法都旨在利用EEG和fNIRS模态的互补优势，但本研究的分析揭示了有利于晚期融合的明显优势。该策略的优越性归因于其在决策阶段保留和最佳利用特定模态特征的能力。晚期融合允许独立且定制优化每种模态的数据表征。理论上，晚期融合可能需要额外的计算资源，因为后期需要合并单独的处理流，在本研究中，与早期融合相比，处理时间的增加约为早期融合的1.5倍，并且比早期融合的内存消耗高出1.2倍。这种比较突显了晚期融合在实现更细致、更有效的神经影像数据表征方面的价值。

图6.使用SVM、NN和DT三种分类器对多模态数据在早期和晚期融合策略下的性能进行比较。

D.为什么使用KNN算法构建图

本研究选择K最近邻(KNN)方法的目的是在缺乏真实值或明确物理知识的情况下建立不同节点之间的连接。构建向量化数据的图有两种流行的选择，包括θ-邻域图和KNN图，后者在图聚类和表征学习方面具有更好的性能。与其他图构建方法相比，KNN图是一种非参数建模，不明确依赖于数据分布。当数据集规模较小或数据不服从高斯分布时，这种方法尤其有用。虽然患者/受试者没有基于EEG-fNIRS数据的内置图，但KNN允许我们以更自然和数据驱动的方式考虑多维数据，适合于接下来的GNN分析。邻域信息，尤其是非参数局部连接，可以在GNN中逐层传播。在这种情况下使用KNN与本研究利用GNN进行分析的目标非常一致。

为了证明KNN图在本研究问题中的有效性，本研究将KNN图与θ-邻域图进行了比较(图7)。本研究采用余弦相似度作为θ-邻域图构建的度量，任何其他相似性度量方法也可行。θ-邻域图将两个节点的两两相似度大于θ时连接起来，否则断开。本实验中所有其他设置均相同。本研究使用了不同数量的邻居(k)和相似度阈值(θ)来连接节点以进行公平比较。在图7中，本研究探索了k=[3，8，16]和θ=[0.9，0.7，0.5]时的表现，发现较小的k或较大的θ表现更好。这证明了GNN更倾向于使用稀疏图结构。总体而言，KNN图比θ-邻域图表现更好，特别是在k较小的情况下。

图7.KNN图与θ-邻域图的比较。

E.与特征提取方法的比较

接下来，本文将TaGMF与现有的特征提取方法进行了比较，包括(1)一维卷积神经网络(1D-CNN)，(2)共空间模式(CSP)，(3)滤波器组共空间模式(FBCSP)。CSP广泛应用于运动想象和BCI应用中的脑电信号特征提取。FBCSP作为CSP的的一个重要扩展，通过利用滤波器组来捕获更广泛的信号特征，有效增强了特征提取能力。如图8所示，TaGMF在性能上优于所有三种方法。值得注意的是，融合特征提高了除FBCSP之外的所有方法的性能。TaGMF在 fNIRS数据的特征提取方面表现突出，这可能是因为其基于图的方法能够充分利用fNIRS数据中的空间细节。这使得TaGMF的性能优于其他方法，能够有效地利用皮层血流动力学的空间信息来增强特征提取。

图8.与1D-CNN、CSP和FBCSP的比较。

E.参数分析

本研究探索了一些超参数来验证它们对所提出模型的影响，包括(1)在构建KNN图时的邻居数量k，(2)Lasso正则化中选择的特征数，以及(3)TaGMF特征的维数。

1)KNN图的邻居数：表I显示了不同k值对KNN图的影响。注意，在构建统一图时，对三个子图应用相同的k值。设k=3，8，16，32，64。随着k值的增加，连接的数量也会增加，同时图结构的密度和复杂性也随之增加。可以看到，在所有情况下，当k增大时性能会下降。

表I.在构建KNN图时，使用不同的k值所获得的分类精度(%)。

2)用于特征选择的lasso正则化：图9展示了lasso特征选择的性能，该性能是通过在不同分类器中使用固定步长进行lasso正则化特征选择计算得出的。对于EEG功率，增加贡献特征会对SVM和DT的准确性产生负面影响。然而，在EEG ERP中，它确实提高了所有分类器的性能。对于fNIRS数据，NN和DT的性能下降超过所选特征的80%，而SVM的性能保持相对稳定，最大下降幅度为1.25%。使用多模态信号时，随着特征的增加，性能显著提高，最高可达43%，之后略有下降。平均而言，SVM方法分别比NN和DT高出2.5%和6.3%。此外，与最佳单模态性能(EEG ERP)相比，SVM和NN的分类精度分别提高了3.5%和0.9%，而DT则略有下降(0.4%)。

图9.使用lasso正则化选择的原始特征对单模态和多模态分类的影响。

3)TaGMF特征的维数：表II探讨了TaGMF特征维数对分类的影响。通过在TaGMF中设置不同数量的隐藏节点来改变维数。实验从默认值16开始，逐步增加到32和64。可以观察到，在单模态和多模态实验中，维数32提供了更高的精度。然而，在多模态实验中，这种维数差距对分类的影响则不是很明显。

表II.不同维数的TaGMF特征对单模态和多模态分类精度的影响(%)。

G.多级图构建

表III探讨了TaG中每个子图的效果，包括G(a)：未使用任何标签的所有观测值的KNN图；G(b)：训练数据中相同标签的观测值之间的连接图；G(c)：测试数据中同一受试者的观测值之间的连接图。在图构建的每个层上，添加来自前一个图中的拓扑信息。一般来说，添加更多子图可以提高单模态和多模态数据的性能。比较仅包含标签信息的KNN图(即行a、b)，可以观察到SVM、NN和DT分类器的分类精度有显著提高。在多模态数据中，当添加同一性连接(c)时，SVM的准确率显著提高了30.1%，DT提高了18.9%，NN提高了18.4%。

表III.不同图及其组合的分类精度(%)。

结论

本研究介绍了一种新的基于深度图的框架，可用于EEG-fNIRS信号分析和组水平分类。通过构建图来表示多模态脑信号，并利用个体内、个体间和组间关系，提出的模型学习了判别特征表示，从而显著提高了对单模态信号的分类性能。通过大量的实验，本研究证明了基于图的特征融合方法的优越性，与单模态数据相比，性能显著提高了22.6%。此外，本研究结果强调了基于图的方法在捕获复杂关系以及提高视觉心理多模态脑信号分析中分类准确性方面的潜力。

参考文献：N. Rahimi et al., "Topology-aware Multimodal Fusion for Neural Dynamics Representation Learning and Classification," in IEEE Sensors Journal, doi: 10.1109/JSEN.2024.3400006.

小伙伴们关注茗创科技，将第一时间收到精彩内容推送哦～