从脑电图和大脑记录中学习稳健的深度视觉表征

从脑电图和大脑记录中学习稳健的深度视觉表征 印度,印度,印度,印度大脑实验室,印度 例如,达拉普,克普拉萨德,山,山,新的。ac .在 摘要 解码人类大脑一直是新机器人科学家和人工智能研 究人员的一个标志。脑脑电图(EEG)信号的视觉图像 重构因其在脑机接口中的应用而引起了人们的广泛关 注。本研究提出了一种两阶段的方法,第一步是获得 脑电图衍生的特征,用于深度抑制器的鲁棒学习,然 后利用学习到的表示进行图像生成和分类。我们使用 带有监督和对比学习方法的深度学习架构,演示了我 们的特征提取管道在三个不同的数据集上的通用性。 我们进行了零镜头脑电图分类任务,以进一步支持可 推广性主张。我们观察到,在一个单模态设置中,单 独使用脑电图数据学习了一个子对象不变的线性可分 离的视觉表示,与脑电图和图像之间的联合代表表达 学习相比,它具有更好的k-均值精度。最后,我们提 出了一种新的框架,将看不见的图像转换到脑电图空 间,并近似地进行重建,展示了从脑电图信号重建图 像的潜力。我们提出的脑电图图像合成方法显示了 62。9%和36岁。EEGCVPR40和Thoightviz数据集的初始 分数提高了13%,优于GAN 1中最先进的性能。 1. 介绍 脑-机接口(BCI)领域已经见证了人们的兴趣和研 究的激增,因为它有潜力彻底改变通过人类认知来控 制机器的方式。我们有希望利用[9,10,27]对人类大脑 活动的理解来改变人机交互的各个领域。在此背景 下,脑电图(EEG)已成为记录脑ac-的关键方法 *这项工作得到了总理研究奖学金(PMRF- 2122-2557)和人工智 能领域的Jibaben Patel主席的支持。 1github.com/prajwalsingh/EEGStyleGAN-ADA 苹果汽车狗金移动玫瑰滑板车老虎钱包手表 图1:脑电图到图像。使用EEGStyleGAN-ADA生成的脑 电图信号的样本图像,每个图像由不同类别的不同脑 电图信号生成,思想数据集[22,41]。 并已获得了科学界[13]的广泛关注。脑电图作为一种 非侵入性技术提供了几个优势,提供了关于大脑活动 的密集的时间信息。它的实际应用涉及广泛的领域, 包括识别手部运动[44],神经康复[1],甚至从大脑信 号[5]中解码语音。值得注意的是,从脑电图信号中提 取视觉信息一直是BCI领域[4,28,37,43]的长期研究重 点。从脑电图信号中提取视觉信息的方法的最新进展 为令人兴奋的可能性铺平了道路,例如使用学习到的 脑电图表示[15,39,40,41]来合成图像。然而,这一领 域的现有方法在合成图像的质量和依赖标签监督方面 遇到了限制。 我们提出的工作解决了这些局限性,并显著地推进 了基于脑电图的图像合成。 1. 我们引入了一个EEGStyleGAN-ADA框架,它通过利 用在对比设置中学习到的脑电图表示来改进来自 脑电图信号的图像合成。这种方法生成了更高质 量的图像,克服了以前的方法的缺点,并提高了 最先进的(SOTA)FID分数62分。9%和36岁。在 EEGCVPR40 [39]和[39]数据集[22,41]上13%。 2. 我们调查了使用一个类似的研究方法的影响 a r Xiv :2 310 .16 5 3 2 v1 [ c s .简 历]2 0 2 3 年10 月 2 5 日熊猫 雏菊 独木舟 铁质浓缩咖啡机制作的南瓜灯高尔夫球 披萨敞篷车反射相机香蕉数字手表飞机机车降落伞海葵鱼卷尾猴苏雷尔马无线电望远镜 图2:脑电图到图像。使用EEGStyleGAN-ADA生成的脑电图信号,每个图像由不同类别的不同脑电图信号生成, EEGCVPR40数据集[39]。 用于所有脑电图数据集的特征提取,从而减少了 在建模架构时对数据分布性质的明显依赖。 3. 为了展示从所提出的脑电图特征提取框架中获得 的表示的适应性,我们提出了涉及零镜头分类性 能和一种新的图像到图像转换方法,旨在直接从 脑电图空间重建以前看不见的图像。 4. 我们的工作进一步提出了一个创新的联合表示学 习框架,它连接了两种不同的模式,即脑电图和 图像,从现有的对比语言-图像预训练(CLIP)方 法[32]中获得灵感。通过融合脑电图信号和视觉 线索,我们的目标是制作一个丰富和全面的表 征,旨在放大一系列任务的表现,特别是图像分 类和检索。 我们还进行了几个实验和消融研究,探索在不同架 构中使用监督和基于度量学习的方法的脑电图特征提 取。这种严格的评估使我们能够评估我们提出的方法 的有效性,并阐明基于脑电图的表征学习的潜在机 制。我们的工作解决了基于脑eg的图像合成和表示学 习任务中面临的挑战,并提供了新的框架和实验见 解。通过提高合成图像的质量,实现联合表示学习, 为基于脑电图的图像重建创建新的框架,并进行综合 评估,我们的目标是突破利用脑电图信号进行视觉任 务的可能边界。 2. 相关工程 在过去的十年里,基于深度学习的方法使得从脑电 图、图像或文本等复杂数据中学习表示成为可能。 [39]公司的初步工作 提出了一个EEGCVPR40 [39]数据集和一个基于LSTM的 脑电图分类网络用于特征学习。在此之后,卡瓦西迪 斯和Palazzo等人的工作。[19,31]使用了一个生成对 抗网络(GAN)[8],从使用[39]提出的基于LSTM的网 络学习到的脑电图特征中合成图像。与GAN一起,卡瓦 西迪斯等人[19]还使用了变分自动编码器(VAE)[21] 从脑电图信号中合成图像。他们的工作得出结论,基 于gan的方法在合成逼真图像方面优于VAE。[41]等人 提出了一个从小规模数据集[22]中学习的GAN网络。他 们在网络中添加了一个可训练的高斯层,用来学习脑 电图特征的平均μ和方差σ,防止了鉴别器网络的过 拟合。Mishra等人[24]的工作使用基于注意力的GAN网 络和可训练的高斯层来从小尺寸脑电图数据集[22]合 成图像。两种工作都使用预先训练的图像分类网络在 GAN中训练生成器。相比之下,辛格等人的研究成果。 [38]使用了一种基于度量学习的方法来提取特征脑电 图,并修改了GAN训练策略,以使用可微数据增强( DiffAug) 克服小尺寸脑电图数据集问题的[46]方法。这也降低 了网络的复杂性,即在高斯层中不需要训练可训练的 生成器和预先训练的图像编码器。 3. 方法 本研究旨在通过解决三个问题来解决脑电到图像重 建问题: 1)从脑电数据中提取视觉信息的不同策略是 什么?2)我们能否从提取的脑电图特征中重建具有丰 富信息的图像?3)如何联合训练脑电图-图像模型,以 完成基于脑电图的图像检索等任务?为了解决这些问 题 , 我 们 在 三 个 不 同 的 数 据 集 EEGCVPR40 [39]、[ 22,41][22,41]和Object [17]上进行了不同架构的实 验和消融研究脑电图描记器 脑电图特征 激光扫描跟踪法 激光扫描跟踪法 激光扫描跟踪法 激光扫描跟踪法 (a) 脑电图描记器 脑电图特征 中心体 (b) 判别器 ADA 生成器 脑电图特征 噪音 假 的 真 的 真实/假 P (c) 重 构 图 像 生 成 器 脑电图特征噪声 图 像 编 码 器 输 入 图 像 脑电图特征空间 (d) 图3: (a)和(b)显示了用于脑电图信号提取128D特征的LSTM和CNN架构。(c) StyleGANADA [18]架构与修改的条件 反射。(d)说明了将看不见的图像转换为学习到的脑电图空间的框架,然后利用预先训练好的生成器网络从脑电图 特征中重建图像。 损失函数。 3.1. 脑电图数据的特征提取 从脑电图数据中提取特征是解决脑电图图像的分 类、重建或合成等问题的重要步骤。由于特征提取的 重要性,过去已经采用了几种有监督或自监督的方 法。以下工作是[39,40,48,15,20,47],使用监督分类 方法进行特征提取。如果测试数据分布与训练数据分 布重叠,则最好采用监督分类方法,而这与脑电图数 据集的情况并非总是如此。这个问题可以通过基于自 监督/度量的学习来克服,并在这些工作[14,26,23, 38]中得到了解决。在[14,26]中,使用预先训练的图 像编码器从图像中提取特征,训练脑电图编码器使用 回归和kl-散度[16]学习图像的特征分布。工作[23, 38]使用基于度量学习的方法进行特征学习,其中使用 三重损失[36]来训练脑电图编码器。 min θ E ||fθ(x a ) − fθ(x p )|| 2 2 − ||fθ(x a ) − fθ(x n )|| 2 2 + δ (1) 其中fθ是我们的编码器,xi∈RN×C是N个时间步长 和C通道的脑电图输入。在这项工作中,我们还使用三 联体损失进行半硬三联体的特征学习。半硬三联体阻 止了编码器网络对所有数据生成相似的表示,并加强 了对鉴别特征的学习。在等式中1、xa为锚点,xp为阳 性样本,xn为阴性样本。δ是阳性样本和阴性样本之 间的边缘距离。半硬三胞胎具有以下属性: ||fθ( xa)- fθ(xp)|| < ||fθ(xa)- fθ(xn)|| 脑电图描记器 脑电图特征 图像 预先训练的 ResNet50 LSTM LSTM .. .. 图像特征 图4:EEGClip。说明了基于[32]的脑电图和图像联合 表示学习的体系结构。 3.2. 从脑电图特征生成图像 卡瓦西迪斯和Palazzo等人的第一项工作使用基于 gan的方法利用脑电图特征合成图像。随后,[20,48, 7]提出修改GAN体系结构,以提高图像合成质量。近年 来,GAN图像合成已经达到了逼真图像的极限,与真实 图像[18,35]难以区别。在此基础上,我们提出了一个 利用StyleGANADA网络[18]从脑电图特征中合成图像的 框架。如图3所示,以等向高斯分布采样的特征向量和 噪声作为输入,合成所需图像。StyleGAN-ADA [18]使 用自适应鉴别器增强,通过增强训练时增强真实图 像,帮助鉴别器在有限的数据下学习。 3.3. 脑电图和图像的联合空间学习 到目前为止,研究工作是使用不同的网络学习脑电 图和图像表示空间0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 3 4 5 6 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 7 8 9 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 (a) EEGCVPR40数据集[40] 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 0 1 2 3 4 5 (b) 对象数据集[17] 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 7 8 9 (c) 尽管Viz数据集[22,41] 图5:图显示了使用LSTM(上)和CNN(下)架构学习的脑EE图聚类。K-均数得分为(a) 0.96,0.98 (b) 0.41,0.35 (c) 0.72,0.12。结果表明,随着脑电图信号时间步长的减小,CNN的性能也在下降。我们在所有实验中保持了 LSTM和CNN架构的不变,以显示架构的通用性,而之前根据数据集定制架构的方法并非如此。 有监督和自我监督的方法。脑电图信号和图像的形态 完全不同,这使得学习联合表示成为一项重要的任 务。脑电图和脑电图像之间的联合表示学习问题很 少。工作[40,14,26]使用预先训练的图像编码器生成 与脑电信号等价的图像表示,并训练脑电编码器网络 回归图像特征向量。在Palazzo等人[30]的工作中,他 们在一个具有三重损失的对比环境中训练脑电图编码 器,而不是回归图像特征向量。本工作利用基于CLIP [32]的方法进行脑电图和图像数据的联合表示学习。 我们使用预先训练好的ResNet50 [11]作为图像编码 器,并使用多层LSTM网络作为脑电图特征编码器。在 训练过程中,我们冻结了ResNet50的权值,并且只更 新了LSTM网络的权值。我们使用了基于clip的损失来 训练完整的管道。如图4所示,每个脑电图图像对作为 正样本(对角线元素),其余作为负样本(非对角线 元素)。与我们的[45]类似,他们使用CLIP [32]进行 联合表示学习,但他们的问题陈述与我们的不同,他 们的目标是通过训练GAN来学习图像编码的表示,然后 使用对比方法训练脑电图编码器进行基于脑电图的图 像检索。我们使用了一个预先训练好的图像编码器来 进行基于脑电图的图像检索任务。 4. 实验和结果 在本节的第一部分中,我们将讨论用于训练和测试 的所有数据集。在第二部分中,我们解释了所有用于 脑电图特征学习和StyleGAN-ADA [18]的训练机制以及 消融研究的训练机制。本节的后一部分讨论了联合空 间表示学习脑电图-图像CLIP [32]模型。 4.1. 数据集 我们使用了三个数据集来训练和测试脑电图表示学 习。 EEGCVPR40 数 据 集 [39]。 该 数 据 集 由 40 个 类 的 EEGImage对组成,这是ImageNet [6]数据集的一个子 集。在记录大脑活动脑电图信号时,参与者获得50张 图像,持续0.5秒。脑电设备由128个通道组成,经过 预处理后,每个脑电信号的长度为440个时间步长。在 丢弃坏样本后,最终的数据集中约有11800对脑电图图像对。 想一下,数据集[22,41]。这是一个由Kumar等人 [22]策划的小规模数据集。它由10个不同的对象类组 成,它是ImageNet [6]的一个子集。为了收集数据 集,每个参与者都被要求可视化这10个不同的类中的 一个。该脑电图装置有14个通道,共记录了23名参与 者的大脑活动。经过预处理后,每个脑电图信号变成 32个时间步长。在这项工作中,我们给它一个别名0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 狗 猫 鱼 C anoe G olf Pool 图6:看不见的脑电图聚类。显示了6个未可见的类别 特征的t-SNE图,k-平均精度为0.62。该方法还显示了 脑电图特征的零镜头分类的通用性。 方法 SVM kNN K-Means Cogni-网[26] 0.78 0.725 - Eeglstm( 我 们 的) 0.93 0.86 0.625 表1:看不见的脑电图。显示了使用三损失训练时网络 的特征泛化能力。在这种情况下,该网络在34个类上 进行了训练,并测试了EEGCVPR40[40]数据集的6个不 可见的类。 因为它最初是由蒂鲁帕图等人[41]用于脑电图的图像 合成工作,并避免与其他对象[17]数据集混淆。 对象数据集[17]。该数据集由6类组成,每个类有12 张图像,显示给10名参与者,并使用128通道设备记录 脑电图信号。这6个类包括人体(HB)、人脸(HF)、 动物身体(AB)、动物脸(AF)、水果蔬菜(FV)和 无生命物体(IO)。经过预处理后,最终的脑电图数 据大小为124×32。 4.2. 提取脑电图特征 监督我们首先使用监督设置训练特征提取网络,如 果网络做出错误的预测,我们使用与每个信号相关的 标签来惩罚网络。我们使用了两种不同的架构,如图 3(a,b)所示。我们通过标签监督为所有三个数据集 训练CNN和LSTM网络。我们观察到,在监督下训练的网 络具有很低的k-means精确度,这表明除了在EEGCVPR 40 [39]数据集上训练的CNN网络外,学习到的特征不 是线性可分的。 三联体损失。在这种情况下,我们对所有三个数据 集使用三重损失[36]来训练如图3(a,b)所示的LSTM 和CNN网络。使用三重损失的训练网络有助于它们学习 鉴别特征,从而获得更好的kmeans精度,如表2所示。 我们还展示了所有三种方法的学习表示的t-SNE [42] 图 数据集 方法 精度 K-Means SVM EEGCVPR40 [39] LSTM 编 码 器 [40] DML [14] LSTMCNN [48] BioLSTM [15]神经 视觉[20]眼镜(我 们的) 0.829 0.977 0.944 0.991 0.988 0.983 0.45 - - - - 0.961 0.47 - - - - 0.962 对象[17] BioLSTM [15] ERP-LSTM [47] Eeglstm( 我 们 的) 0.611 0.66 0.41 - - 0.40 - - 0.401 ThoughtViz [22, 41] ThoughtViz [41] SiameseCNN [23] EEG2Image [38] Eeglstm( 我 们 的) 0.729 0.899 0.55 0.741 0.18 - 0.52 0.721 0.19 - - 0.724 表2:聚类和线性评价。比较了不同数据集的脑电图信 号特征提取的不同方法和损失类型。在某些情况下, 基于三重损失的方法优于经过标签监督训练的网络。 图5中的数据集使用LSTM和CNN网络。我们进一步细化 了所有三个数据集上的网络,并报告了与其他方法进 行比较的准确性。值得注意的是,为了在脑电图特征 提取任务中显示泛化,类似于使用ResNet50 [11]在不 同的数据集和应用中进行图像特征提取,我们在所有 的脑电图数据集上使用了相同的LSTM/CNN体系结构。 这就解释了在某些数据集中的微调精度较低的原因。 进一步支持 对于相同训练机制下的EEGCVPR40 [39]数据集,CNN的 k-means准确率为98%,LSTM架构的准确率为96%。 看不见的数据。为了显示我们在不可见的类中使用 三联体损失的学习表示的通用性,我们将我们的方法 与[26]进行了比较。在这种情况下,该网络在来自 EEGCVPR40 [39]数据集的34个类上进行训练,并在其 余6个类上进行测试,分别是狗、猫、鱼、独木舟、高 尔夫球和游泳池。与[26]相比,不需要预先训练好的 图像网络。如表1所示,我们的方法表现更好,更高的 SVM [12]和kNN [25]评分更高。我们还展示了所有6个 未看到的类学习特征的t-SNE [42]图,图6。 图像到图像。为了研究特征泛化的效果,我们进行 了另一个实验,将视觉图像特征映射到学习到的脑电 图流形中。我们利用三重态损失学习了脑电图特征空 间。映射视觉特征的概念源于这样一个概念,即这些 映射的特征可以模拟在人类场景理解[39]的过程中所 涉及的神经过程。然后,利用这些转换后的图像特 征,使用EEGStyleGAN-ADA进行图像合成,以显示所提 网络的泛化能力。图像合成的定性结果如图7所示。由 不可见图像生成的脑电图特征可以高保真度地重建图 像。方法 是↑ FID ↓ 儿 童 ↓ E E G C V P R40 Brain2Image-VAE [19] Brain2Image-GAN [ 31, 19] NeuroVision [20] 改进-SNGAN[48]DCLSGAN[7] EEGStyleGAN-ADA( 我 们的) 4.49 5.07 5.15 5.53 6.64 10.82 - - - - - 174.13 - - - - - 0.065 尽 管Viz AC-GAN [29] ThoughtViz [41] NeuroGAN [24] EEG2Image [38] EEGStyleGAN-ADA( 我 们的) 4.93 5.43 6.02 6.78 9.23 - - - - 109.49 - - - - 0.039 表3:EEGCVPR40[39]和想象Viz数据集[22,41]的初始 评分(所有类别)的比较。对于EEGStyleGAN-ADA,我 们还计算了Frechet起始距离(FID)和内核起始距 离(KID)。 4.3. 图像合成 基于脑电图的条件反射。通过训练最先进的生成模 型StyleGANADA [18],我们显著改善了脑电图的图像 生成。为了专门针对脑电图数据,我们对现有的 StyleGAN-ADA管道进行了修改,得到了一个我们命名 为EEGStyleGAN-ADA的框架(图3(c))。我们的方法结 合了一个预先训练好的LSTM网络来提取脑电图特征, 并与从各向同性高斯分布中采样的噪声向量相连接。 然后将这个组合输入输入到EEGStyleGAN-ADA网络中进 行图像合成。为了训练网络,我们使用了"cifar"超 参数,利用了来自EEGCVPR40 [39]和?Viz[22,41]数据 集的数据。如图[1,11]所示,由我们提出的框架生成 的合成图像,与以前的方法相比,表现出了多样性, 并保持了较高的保真度。 为了定量评估我们的方法的性能,我们使用了初始 评分[34],这是生成模型中常用的度量标准。与现有 脑电图与图像合成网络的比较分析,如表3所示,显示 我们提出的方法在初始得分方面优于它们。此外,我 们报告了弗雷切特初始距离(FID)[3]和内核初始距 离(KID)[2]分数,为生成的图像的质量和多样性提 供了更多的见解。 基于类的调节。为了证明所提出的EEGStyleGAN-AADA的有效性,我们进行了一项消融研究,我们没有提 供脑电图信号,而是只使用了一个热类条件。EEGCVPR 40 [39]数据集由40个类组成,每个类都有30-40张图 像,这使得使用条件GAN很难学习。为了进一步验证这 一说法,我们使用目前最先进的NoisyTwins [33]进行 了长尾条件生成的实验。如图所示。9,最好的FID分 数,我们 输入重构输入重构输入重构输入重构 图7:图像到图像。显示图像到图像转换的结果。在这 里,不使用来自EEGCVPR40 [39]数据集的脑电图信 号,而是使用其等效图像,并将其转换为脑电图表示 空间,然后使用预先训练的生成网络对图像进行近似 重建。 达到的是105个。5,定性结果表明,即使使用SOTA模 型对EEGCVPR数据集进行单热类条件反射进行图像合 成,也缺乏逼真的效果。这意味着我们用所提出的 EEGStyleGAN-ADA合成的逼真图像是所有基于脑电图的 脑电图图像生成方法中最好的。 4.4. 联合表示空间学习 我们工作的这一部分提出了EEGClip,一个新的框 架,用于基于CLIP模型[32]的EE图信号和图像之间的 联合表示学习。为了评估我们的方法的有效性,我们 使用EEGCVPR40数据集[39]进行了实验,与想象的[ 22,41]和对象[17]数据集相比,该数据集提供了显著 更多的(EEG、图像)对。我们进行了几个实验来研究 批处理大小和训练期数对学习联合表示的影响。由于 计算约束,我们考虑了16、3、2、64,并对不同时期 的 模 型 进 行 训 练 , 从 64、128、256、512、1024、 2048。这些实验的结果,如表4所示,给出了K∈{ 1,5,10}的最高K召回率。我们的研究结果表明,所提 出的EEGClip框架在64个和2048个时期的批量训练时取 得了优越的性能。这种配置对不同的k值产生了最高的 召回率微调顶部的精度 批次大小\Epochs 64 128 256 512 1024 2048 16 0.26/0.45/0.60 0.37/0.59/0.71 0.51/0.75/0.81 0.59/0.80/0.85 0.69/0.88/0.92 0.73/0.90/0.93 EEG 32 0.32/0.53/0.68 0.43/0.68/0.79 0.53/0.80/0.87 0.61/0.87/0.90 0.72/0.92/0.95 0.77/0.94/0.96 64 0.34/0.54/0.69 0.44/0.67/0.82 0.57/0.80/0.85 0.68/0.89/0.93 0.76/0.94/0.97 0.79/0.96/0.98 16 0.78/0.88/0.91 0.83/0.90/0.92 0.87/0.93/0.95 0.89/0.96/0.98 0.91/0.97/0.98 0.92/0.97/0.99 图32 0.80/0.91/0.94 0.84/0.92/0.95 0.90/0.96/0.98 0.92/0.97/0.99 0.92/0.96/0.98 0.93/0.96/0.99 64 0.84/0.94/0.95 0.88/0.95/0.98 0.91/0.97/0.98 0.93/0.98/0.99 0.94/0.97/0.99 0.95/0.99/1.0 表4:EEGClip。在EEGCVPR40 [39]数据集上对EEGClip网络进行脑电图和图像分类的细化结果。 真实值 前5名检索图像 图8:使用脑电图检索图像。显示了从EEGCVPR40[39] 的测试数据中检索到的给定脑电图信号的前5个图像。 利用预先训练好的EEGClip的权值来提取图像和脑电图 的特征,在这里,地面真实表示与给定的脑电图相等 的期望图像。 我们在图8中给出了脑电图的图像检索结果。这些结果 表明,我们的框架能够基于脑电图输入准确地检索相 关图像。 4.5. 在EEGCVPR40滤波器数据集上的实验(5 - 95 薄雾 根据第4.4节,对于EEGClip,当使用批处理大小为 64时,可以获得最佳性能。因此,我们在EEGCVPR40滤 波器数据集(5-95 Hz)[39]上进行实验时,采用了相 同的批处理大小。我们将我们的方法与Palazzo等人的 [30]进行了比较,他们在相同的滤波器数据集上进行 了实验,达到了60的精度。脑电图分类为4%,图像分 类94%。我们表现最好的模型,对应于批大小 64和2048个时期(如表5所示),脑电图分类准确率为 64%,图像分类准确率为94%。 4.6. 图像检索任务的定量性能 我们采用基于脑电图输入的EEGClip模型(图4)进 行图像检索任务。从我们的实验中得到的结果已在本 文中提出。然而,为了提供一个更全面的结果分析, 我们使用了两个特定的指标:平均倒数排名(MRR)和 平均平均精度(mAP)来进行排名评估。MRR度量评估 了检索模型在对唯一的视觉线索实例进行准确排序方 面的有效性,而mAP度量则评估检索模型捕获所有相关 视觉线索的能力。这些相关的视觉线索对应于与正确 匹配属于同一语义类的图像。对于EEGCVPR40 [39]数 据 集 , 我 们 的 方 法 得 到 的 MRR 为 0.7427,mAP 为 0.6689。这些分数是通过与64个批大小相关的模型获 得的,并训练了2048个时代。 5. 讨论 本文针对脑电图到图像的重建问题,提出了一种从 脑电图数据中提取视觉信息,利用提取的脑电图特征 合成图像,并联合训练脑电图模型用于基于脑电图的 图像检索等任务。我们在三个不同的数据集上进行了 实 验 和 消 融 研 究 : EEGCVPR40 [39]、ThoightViz[ 22,41]和Objiect[17],使用不同的结构和损耗函数。 我们首先讨论了从脑电图数据中提取特征的不同策 略,包括监督方法和自监督方法。我们将监督分类方 法与基于自监督/度量的学习方法进行了比较,发现后 者产生了更具鉴别性和可推广性的特征,特别是使用 三重损失。我们通过改进的k-means精度、t-SNE可视 化和零镜头分类来证明了同样的情况。 接下来,我们探索了使用GAN框架从脑电图特征中生 成图像。为此,我们提出微调顶部的精度 批次大小\Epochs 64 128 256 512 1024 2048 脑电图描记器 64 0.28/0.39/0.48 0.37/0.53/0.69 0.45/0.66/0.81 0.53/0.77/0.86 0.59/0.82/0.89 0.64/0.86/0.92 图64 0.78/0.88/0.92 0.83/0.92/0.95 0.87/0.94/0.97 0.90/0.95/0.98 0.92/0.96/0.99 0.94/0.98/0.99 表5:EEGClip。在EEGCVPR40滤波器数据集(5-95 Hz)[39]上细化EEGClip网络进行脑电图和图像分类的结果。 图9:基于类的条件处理。目的:展示了利用EEGCVPR 40 [39]数据集的脑电图生成图像的复杂性。我们训练 了一种被称为NoisyTwins [33]的StyleGAN2的变体, 用于学习在长尾条件数据集或具有较少图像的条件数 据集上的图像生成,这是EEGCVPR40数据集的情况。我 们没有使用脑电图,而是使用了单热编码来进行条件 反射。在类标签条件下,我们取得的最佳FID分数是 105.5分。 EEGStyleGAN-ADA,它结合脑电图特征和噪声向量来合 成不同的高保真图像。我们的方法优于以前的脑e图到 图像合成网络,有62个。9%和36岁。对EEGCVPR40 [39]数据集和[22,41][22,41]数据集的初始分数提高 了13%,这优于使用GAN的最先进的性能。我们已经证 明,在基于类的条件反射4.3的帮助下,实现逼真的效 果并不是很简单的。 此外,我们还研究了EEG脑电图和图像的联合表示空 间学习 构架我们通过冻结一个预先训练过的图像编码器的权 值和使用基于clip的损失训练一个脑电图特征编码 器,在联合表示学习方面取得了显著的改进。在检查 了批大小和历元数的影响后,我们观察到批大小的增 加与性能的增强之间存在直接相关性,在64和2048个 批次大小时达到峰值,脑电图和图像的top@1得分分别 为79%和95%。然而,将历元计数延长到这一点之后并 没有显示出明显的改善。EEGClip已经显示了5个。比 以前的最先进的联合表示学习方法提高了96%。 限制。拟议的工作有一些局限性。 1) 虽然我们在所有数据集上使用了相同的结构进行脑 电图特征提取的方法,但使用单一结构实现SOTA性能 仍然是一个有待解决的问题。2)在基于脑电图的图像 合成中,我们优于以往的方法。尽管如此,在有限的 数据集条件下,可以通过更好的GAN训练策略提高图像 的图像质量,我们可以进一步利用其用于基于脑电图 的图像重建。 6. 结论 在本研究中,我们的主要目的是提高脑电图信号的 图 像 合 成 质 量 。 为 了 实 现 这 一 点 , 我 们 引 入 了 EEGStyleGAN-ADA,这是一个框架,能够利用小型和大 型脑电图数据集直接从脑电图信号生成高分辨率图 像(128×128128),性能优于以前的先进技术。 除了图像合成外,我们还提出了一个联合表示学习 框架,以弥合脑电图和图像表示之间的差距。通过结 合这两种模式的力量,我们获得了更丰富、更全面的 表示,使我们能够使用脑电图信号来执行图像检索任 务。我们详尽的实验证实了这种联合表示学习方法的 有效性,并展示了它在现实应用中的潜力。此外,我 们还展示了基于三重损失的特征提取方法的零镜头分 类能力。 我们未来的努力将进一步改进基于脑电图的图像合 成,探索新的技术,并完善现有的框架。此外,我们 的目标是扩大我们的调查,包括基于脑电图的视频分 析的新兴领域,利用时间动态来生成和分析视觉内 容。

相关推荐
缘友一世1 小时前
开篇:MCP理论理解和学习
学习·mcp·模型上下文协议
虾球xz2 小时前
游戏引擎学习第308天:调试循环检测
前端·c++·学习·算法·游戏引擎
杀神lwz2 小时前
JVM学习(四)--对象内存布局
学习
TIGA5392 小时前
15.集合框架的学习
java·笔记·学习·集合框架
人类恶.3 小时前
C 语言学习笔记(指针4)
c语言·笔记·学习
坚定信念,勇往无前3 小时前
threejs 四元数(Quaternion)和欧拉角(Euler)学习
javascript·学习
Wythzhfrey3 小时前
数学建模day01
学习·数学建模
power 雀儿3 小时前
集群聊天服务器学习 配置开发环境(VScode远程连接虚拟机Linux开发)(2)
运维·服务器·学习
每次的天空4 小时前
Android-Glide学习总结
android·学习·glide