从脑电图和大脑记录中学习稳健的深度视觉表征

从脑电图和大脑记录中学习稳健的深度视觉表征印度，印度，印度，印度大脑实验室，印度例如，达拉普，克普拉萨德，山，山，新的。ac .在摘要解码人类大脑一直是新机器人科学家和人工智能研究人员的一个标志。脑脑电图（EEG）信号的视觉图像重构因其在脑机接口中的应用而引起了人们的广泛关注。本研究提出了一种两阶段的方法，第一步是获得脑电图衍生的特征，用于深度抑制器的鲁棒学习，然后利用学习到的表示进行图像生成和分类。我们使用带有监督和对比学习方法的深度学习架构，演示了我们的特征提取管道在三个不同的数据集上的通用性。我们进行了零镜头脑电图分类任务，以进一步支持可推广性主张。我们观察到，在一个单模态设置中，单独使用脑电图数据学习了一个子对象不变的线性可分离的视觉表示，与脑电图和图像之间的联合代表表达学习相比，它具有更好的k-均值精度。最后，我们提出了一种新的框架，将看不见的图像转换到脑电图空间，并近似地进行重建，展示了从脑电图信号重建图像的潜力。我们提出的脑电图图像合成方法显示了 62。9%和36岁。EEGCVPR40和Thoightviz数据集的初始分数提高了13%，优于GAN 1中最先进的性能。 1. 介绍脑-机接口（BCI）领域已经见证了人们的兴趣和研究的激增，因为它有潜力彻底改变通过人类认知来控制机器的方式。我们有希望利用[9,10,27]对人类大脑活动的理解来改变人机交互的各个领域。在此背景下，脑电图（EEG）已成为记录脑ac-的关键方法 *这项工作得到了总理研究奖学金（PMRF- 2122-2557）和人工智能领域的Jibaben Patel主席的支持。 1github.com/prajwalsingh/EEGStyleGAN-ADA 苹果汽车狗金移动玫瑰滑板车老虎钱包手表图1：脑电图到图像。使用EEGStyleGAN-ADA生成的脑电图信号的样本图像，每个图像由不同类别的不同脑电图信号生成，思想数据集[22,41]。并已获得了科学界[13]的广泛关注。脑电图作为一种非侵入性技术提供了几个优势，提供了关于大脑活动的密集的时间信息。它的实际应用涉及广泛的领域，包括识别手部运动[44]，神经康复[1]，甚至从大脑信号[5]中解码语音。值得注意的是，从脑电图信号中提取视觉信息一直是BCI领域[4,28,37,43]的长期研究重点。从脑电图信号中提取视觉信息的方法的最新进展为令人兴奋的可能性铺平了道路，例如使用学习到的脑电图表示[15,39,40,41]来合成图像。然而，这一领域的现有方法在合成图像的质量和依赖标签监督方面遇到了限制。我们提出的工作解决了这些局限性，并显著地推进了基于脑电图的图像合成。 1. 我们引入了一个EEGStyleGAN-ADA框架，它通过利用在对比设置中学习到的脑电图表示来改进来自脑电图信号的图像合成。这种方法生成了更高质量的图像，克服了以前的方法的缺点，并提高了最先进的（SOTA）FID分数62分。9%和36岁。在 EEGCVPR40 [39]和[39]数据集[22,41]上13%。 2. 我们调查了使用一个类似的研究方法的影响 a r Xiv :2 310 .16 5 3 2 v1 [ c s .简历]2 0 2 3 年10 月 2 5 日熊猫雏菊独木舟铁质浓缩咖啡机制作的南瓜灯高尔夫球披萨敞篷车反射相机香蕉数字手表飞机机车降落伞海葵鱼卷尾猴苏雷尔马无线电望远镜图2：脑电图到图像。使用EEGStyleGAN-ADA生成的脑电图信号，每个图像由不同类别的不同脑电图信号生成， EEGCVPR40数据集[39]。用于所有脑电图数据集的特征提取，从而减少了在建模架构时对数据分布性质的明显依赖。 3. 为了展示从所提出的脑电图特征提取框架中获得的表示的适应性，我们提出了涉及零镜头分类性能和一种新的图像到图像转换方法，旨在直接从脑电图空间重建以前看不见的图像。 4. 我们的工作进一步提出了一个创新的联合表示学习框架，它连接了两种不同的模式，即脑电图和图像，从现有的对比语言-图像预训练（CLIP）方法[32]中获得灵感。通过融合脑电图信号和视觉线索，我们的目标是制作一个丰富和全面的表征，旨在放大一系列任务的表现，特别是图像分类和检索。我们还进行了几个实验和消融研究，探索在不同架构中使用监督和基于度量学习的方法的脑电图特征提取。这种严格的评估使我们能够评估我们提出的方法的有效性，并阐明基于脑电图的表征学习的潜在机制。我们的工作解决了基于脑eg的图像合成和表示学习任务中面临的挑战，并提供了新的框架和实验见解。通过提高合成图像的质量，实现联合表示学习，为基于脑电图的图像重建创建新的框架，并进行综合评估，我们的目标是突破利用脑电图信号进行视觉任务的可能边界。 2. 相关工程在过去的十年里，基于深度学习的方法使得从脑电图、图像或文本等复杂数据中学习表示成为可能。 [39]公司的初步工作提出了一个EEGCVPR40 [39]数据集和一个基于LSTM的脑电图分类网络用于特征学习。在此之后，卡瓦西迪斯和Palazzo等人的工作。[19,31]使用了一个生成对抗网络（GAN）[8]，从使用[39]提出的基于LSTM的网络学习到的脑电图特征中合成图像。与GAN一起，卡瓦西迪斯等人[19]还使用了变分自动编码器（VAE）[21] 从脑电图信号中合成图像。他们的工作得出结论，基于gan的方法在合成逼真图像方面优于VAE。[41]等人提出了一个从小规模数据集[22]中学习的GAN网络。他们在网络中添加了一个可训练的高斯层，用来学习脑电图特征的平均μ和方差σ，防止了鉴别器网络的过拟合。Mishra等人[24]的工作使用基于注意力的GAN网络和可训练的高斯层来从小尺寸脑电图数据集[22]合成图像。两种工作都使用预先训练的图像分类网络在 GAN中训练生成器。相比之下，辛格等人的研究成果。 [38]使用了一种基于度量学习的方法来提取特征脑电图，并修改了GAN训练策略，以使用可微数据增强（ DiffAug）克服小尺寸脑电图数据集问题的[46]方法。这也降低了网络的复杂性，即在高斯层中不需要训练可训练的生成器和预先训练的图像编码器。 3. 方法本研究旨在通过解决三个问题来解决脑电到图像重建问题： 1)从脑电数据中提取视觉信息的不同策略是什么？2)我们能否从提取的脑电图特征中重建具有丰富信息的图像？3)如何联合训练脑电图-图像模型，以完成基于脑电图的图像检索等任务？为了解决这些问题，我们在三个不同的数据集 EEGCVPR40 [39]、[ 22,41][22,41]和Object [17]上进行了不同架构的实验和消融研究脑电图描记器脑电图特征激光扫描跟踪法激光扫描跟踪法激光扫描跟踪法激光扫描跟踪法 (a) 脑电图描记器脑电图特征中心体 (b) 判别器 ADA 生成器脑电图特征噪音假的真的真实/假 P (c) 重构图像生成器脑电图特征噪声图像编码器输入图像脑电图特征空间 (d) 图3： (a)和(b)显示了用于脑电图信号提取128D特征的LSTM和CNN架构。(c) StyleGANADA [18]架构与修改的条件反射。(d)说明了将看不见的图像转换为学习到的脑电图空间的框架，然后利用预先训练好的生成器网络从脑电图特征中重建图像。损失函数。 3.1. 脑电图数据的特征提取从脑电图数据中提取特征是解决脑电图图像的分类、重建或合成等问题的重要步骤。由于特征提取的重要性，过去已经采用了几种有监督或自监督的方法。以下工作是[39,40,48,15,20,47]，使用监督分类方法进行特征提取。如果测试数据分布与训练数据分布重叠，则最好采用监督分类方法，而这与脑电图数据集的情况并非总是如此。这个问题可以通过基于自监督/度量的学习来克服，并在这些工作[14,26,23, 38]中得到了解决。在[14,26]中，使用预先训练的图像编码器从图像中提取特征，训练脑电图编码器使用回归和kl-散度[16]学习图像的特征分布。工作[23, 38]使用基于度量学习的方法进行特征学习，其中使用三重损失[36]来训练脑电图编码器。 min θ E ||fθ(x a ) − fθ(x p )|| 2 2 − ||fθ(x a ) − fθ(x n )|| 2 2 + δ (1) 其中fθ是我们的编码器，xi∈RN×C是N个时间步长和C通道的脑电图输入。在这项工作中，我们还使用三联体损失进行半硬三联体的特征学习。半硬三联体阻止了编码器网络对所有数据生成相似的表示，并加强了对鉴别特征的学习。在等式中1、xa为锚点，xp为阳性样本，xn为阴性样本。δ是阳性样本和阴性样本之间的边缘距离。半硬三胞胎具有以下属性： ||fθ（ xa）- fθ（xp）|| < ||fθ（xa）- fθ（xn）|| 脑电图描记器脑电图特征图像预先训练的 ResNet50 LSTM LSTM .. .. 图像特征图4：EEGClip。说明了基于[32]的脑电图和图像联合表示学习的体系结构。 3.2. 从脑电图特征生成图像卡瓦西迪斯和Palazzo等人的第一项工作使用基于 gan的方法利用脑电图特征合成图像。随后，[20,48, 7]提出修改GAN体系结构，以提高图像合成质量。近年来，GAN图像合成已经达到了逼真图像的极限，与真实图像[18,35]难以区别。在此基础上，我们提出了一个利用StyleGANADA网络[18]从脑电图特征中合成图像的框架。如图3所示，以等向高斯分布采样的特征向量和噪声作为输入，合成所需图像。StyleGAN-ADA [18]使用自适应鉴别器增强，通过增强训练时增强真实图像，帮助鉴别器在有限的数据下学习。 3.3. 脑电图和图像的联合空间学习到目前为止，研究工作是使用不同的网络学习脑电图和图像表示空间0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 2 3 4 5 6 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 7 8 9 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 (a) EEGCVPR40数据集[40] 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 0 1 2 3 4 5 (b) 对象数据集[17] 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 0 1 2 3 4 5 6 7 8 9 (c) 尽管Viz数据集[22,41] 图5：图显示了使用LSTM（上）和CNN（下）架构学习的脑EE图聚类。K-均数得分为(a) 0.96,0.98 (b) 0.41,0.35 (c) 0.72,0.12。结果表明，随着脑电图信号时间步长的减小，CNN的性能也在下降。我们在所有实验中保持了 LSTM和CNN架构的不变，以显示架构的通用性，而之前根据数据集定制架构的方法并非如此。有监督和自我监督的方法。脑电图信号和图像的形态完全不同，这使得学习联合表示成为一项重要的任务。脑电图和脑电图像之间的联合表示学习问题很少。工作[40,14,26]使用预先训练的图像编码器生成与脑电信号等价的图像表示，并训练脑电编码器网络回归图像特征向量。在Palazzo等人[30]的工作中，他们在一个具有三重损失的对比环境中训练脑电图编码器，而不是回归图像特征向量。本工作利用基于CLIP [32]的方法进行脑电图和图像数据的联合表示学习。我们使用预先训练好的ResNet50 [11]作为图像编码器，并使用多层LSTM网络作为脑电图特征编码器。在训练过程中，我们冻结了ResNet50的权值，并且只更新了LSTM网络的权值。我们使用了基于clip的损失来训练完整的管道。如图4所示，每个脑电图图像对作为正样本（对角线元素），其余作为负样本（非对角线元素）。与我们的[45]类似，他们使用CLIP [32]进行联合表示学习，但他们的问题陈述与我们的不同，他们的目标是通过训练GAN来学习图像编码的表示，然后使用对比方法训练脑电图编码器进行基于脑电图的图像检索。我们使用了一个预先训练好的图像编码器来进行基于脑电图的图像检索任务。 4. 实验和结果在本节的第一部分中，我们将讨论用于训练和测试的所有数据集。在第二部分中，我们解释了所有用于脑电图特征学习和StyleGAN-ADA [18]的训练机制以及消融研究的训练机制。本节的后一部分讨论了联合空间表示学习脑电图-图像CLIP [32]模型。 4.1. 数据集我们使用了三个数据集来训练和测试脑电图表示学习。 EEGCVPR40 数据集 [39]。该数据集由 40 个类的 EEGImage对组成，这是ImageNet [6]数据集的一个子集。在记录大脑活动脑电图信号时，参与者获得50张图像，持续0.5秒。脑电设备由128个通道组成，经过预处理后，每个脑电信号的长度为440个时间步长。在丢弃坏样本后，最终的数据集中约有11800对脑电图图像对。想一下，数据集[22,41]。这是一个由Kumar等人 [22]策划的小规模数据集。它由10个不同的对象类组成，它是ImageNet [6]的一个子集。为了收集数据集，每个参与者都被要求可视化这10个不同的类中的一个。该脑电图装置有14个通道，共记录了23名参与者的大脑活动。经过预处理后，每个脑电图信号变成 32个时间步长。在这项工作中，我们给它一个别名0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 狗猫鱼 C anoe G olf Pool 图6：看不见的脑电图聚类。显示了6个未可见的类别特征的t-SNE图，k-平均精度为0.62。该方法还显示了脑电图特征的零镜头分类的通用性。方法 SVM kNN K-Means Cogni-网[26] 0.78 0.725 - Eeglstm（我们的） 0.93 0.86 0.625 表1：看不见的脑电图。显示了使用三损失训练时网络的特征泛化能力。在这种情况下，该网络在34个类上进行了训练，并测试了EEGCVPR40[40]数据集的6个不可见的类。因为它最初是由蒂鲁帕图等人[41]用于脑电图的图像合成工作，并避免与其他对象[17]数据集混淆。对象数据集[17]。该数据集由6类组成，每个类有12 张图像，显示给10名参与者，并使用128通道设备记录脑电图信号。这6个类包括人体（HB）、人脸（HF）、动物身体（AB）、动物脸（AF）、水果蔬菜（FV）和无生命物体（IO）。经过预处理后，最终的脑电图数据大小为124×32。 4.2. 提取脑电图特征监督我们首先使用监督设置训练特征提取网络，如果网络做出错误的预测，我们使用与每个信号相关的标签来惩罚网络。我们使用了两种不同的架构，如图 3（a，b）所示。我们通过标签监督为所有三个数据集训练CNN和LSTM网络。我们观察到，在监督下训练的网络具有很低的k-means精确度，这表明除了在EEGCVPR 40 [39]数据集上训练的CNN网络外，学习到的特征不是线性可分的。三联体损失。在这种情况下，我们对所有三个数据集使用三重损失[36]来训练如图3（a，b）所示的LSTM 和CNN网络。使用三重损失的训练网络有助于它们学习鉴别特征，从而获得更好的kmeans精度，如表2所示。我们还展示了所有三种方法的学习表示的t-SNE [42] 图数据集方法精度 K-Means SVM EEGCVPR40 [39] LSTM 编码器 [40] DML [14] LSTMCNN [48] BioLSTM [15]神经视觉[20]眼镜（我们的） 0.829 0.977 0.944 0.991 0.988 0.983 0.45 - - - - 0.961 0.47 - - - - 0.962 对象[17] BioLSTM [15] ERP-LSTM [47] Eeglstm（我们的） 0.611 0.66 0.41 - - 0.40 - - 0.401 ThoughtViz [22, 41] ThoughtViz [41] SiameseCNN [23] EEG2Image [38] Eeglstm（我们的） 0.729 0.899 0.55 0.741 0.18 - 0.52 0.721 0.19 - - 0.724 表2：聚类和线性评价。比较了不同数据集的脑电图信号特征提取的不同方法和损失类型。在某些情况下，基于三重损失的方法优于经过标签监督训练的网络。图5中的数据集使用LSTM和CNN网络。我们进一步细化了所有三个数据集上的网络，并报告了与其他方法进行比较的准确性。值得注意的是，为了在脑电图特征提取任务中显示泛化，类似于使用ResNet50 [11]在不同的数据集和应用中进行图像特征提取，我们在所有的脑电图数据集上使用了相同的LSTM/CNN体系结构。这就解释了在某些数据集中的微调精度较低的原因。进一步支持对于相同训练机制下的EEGCVPR40 [39]数据集，CNN的 k-means准确率为98%，LSTM架构的准确率为96%。看不见的数据。为了显示我们在不可见的类中使用三联体损失的学习表示的通用性，我们将我们的方法与[26]进行了比较。在这种情况下，该网络在来自 EEGCVPR40 [39]数据集的34个类上进行训练，并在其余6个类上进行测试，分别是狗、猫、鱼、独木舟、高尔夫球和游泳池。与[26]相比，不需要预先训练好的图像网络。如表1所示，我们的方法表现更好，更高的 SVM [12]和kNN [25]评分更高。我们还展示了所有6个未看到的类学习特征的t-SNE [42]图，图6。图像到图像。为了研究特征泛化的效果，我们进行了另一个实验，将视觉图像特征映射到学习到的脑电图流形中。我们利用三重态损失学习了脑电图特征空间。映射视觉特征的概念源于这样一个概念，即这些映射的特征可以模拟在人类场景理解[39]的过程中所涉及的神经过程。然后，利用这些转换后的图像特征，使用EEGStyleGAN-ADA进行图像合成，以显示所提网络的泛化能力。图像合成的定性结果如图7所示。由不可见图像生成的脑电图特征可以高保真度地重建图像。方法是↑ FID ↓ 儿童 ↓ E E G C V P R40 Brain2Image-VAE [19] Brain2Image-GAN [ 31, 19] NeuroVision [20] 改进-SNGAN[48]DCLSGAN[7] EEGStyleGAN-ADA（我们的） 4.49 5.07 5.15 5.53 6.64 10.82 - - - - - 174.13 - - - - - 0.065 尽管Viz AC-GAN [29] ThoughtViz [41] NeuroGAN [24] EEG2Image [38] EEGStyleGAN-ADA（我们的） 4.93 5.43 6.02 6.78 9.23 - - - - 109.49 - - - - 0.039 表3：EEGCVPR40[39]和想象Viz数据集[22,41]的初始评分（所有类别）的比较。对于EEGStyleGAN-ADA，我们还计算了Frechet起始距离（FID）和内核起始距离（KID）。 4.3. 图像合成基于脑电图的条件反射。通过训练最先进的生成模型StyleGANADA [18]，我们显著改善了脑电图的图像生成。为了专门针对脑电图数据，我们对现有的 StyleGAN-ADA管道进行了修改，得到了一个我们命名为EEGStyleGAN-ADA的框架（图3(c)）。我们的方法结合了一个预先训练好的LSTM网络来提取脑电图特征，并与从各向同性高斯分布中采样的噪声向量相连接。然后将这个组合输入输入到EEGStyleGAN-ADA网络中进行图像合成。为了训练网络，我们使用了"cifar"超参数，利用了来自EEGCVPR40 [39]和?Viz[22,41]数据集的数据。如图[1,11]所示，由我们提出的框架生成的合成图像，与以前的方法相比，表现出了多样性，并保持了较高的保真度。为了定量评估我们的方法的性能，我们使用了初始评分[34]，这是生成模型中常用的度量标准。与现有脑电图与图像合成网络的比较分析，如表3所示，显示我们提出的方法在初始得分方面优于它们。此外，我们报告了弗雷切特初始距离（FID）[3]和内核初始距离（KID）[2]分数，为生成的图像的质量和多样性提供了更多的见解。基于类的调节。为了证明所提出的EEGStyleGAN-AADA的有效性，我们进行了一项消融研究，我们没有提供脑电图信号，而是只使用了一个热类条件。EEGCVPR 40 [39]数据集由40个类组成，每个类都有30-40张图像，这使得使用条件GAN很难学习。为了进一步验证这一说法，我们使用目前最先进的NoisyTwins [33]进行了长尾条件生成的实验。如图所示。9，最好的FID分数，我们输入重构输入重构输入重构输入重构图7：图像到图像。显示图像到图像转换的结果。在这里，不使用来自EEGCVPR40 [39]数据集的脑电图信号，而是使用其等效图像，并将其转换为脑电图表示空间，然后使用预先训练的生成网络对图像进行近似重建。达到的是105个。5，定性结果表明，即使使用SOTA模型对EEGCVPR数据集进行单热类条件反射进行图像合成，也缺乏逼真的效果。这意味着我们用所提出的 EEGStyleGAN-ADA合成的逼真图像是所有基于脑电图的脑电图图像生成方法中最好的。 4.4. 联合表示空间学习我们工作的这一部分提出了EEGClip，一个新的框架，用于基于CLIP模型[32]的EE图信号和图像之间的联合表示学习。为了评估我们的方法的有效性，我们使用EEGCVPR40数据集[39]进行了实验，与想象的[ 22,41]和对象[17]数据集相比，该数据集提供了显著更多的（EEG、图像）对。我们进行了几个实验来研究批处理大小和训练期数对学习联合表示的影响。由于计算约束，我们考虑了16、3、2、64，并对不同时期的模型进行训练，从 64、128、256、512、1024、 2048。这些实验的结果，如表4所示，给出了K∈{ 1,5,10}的最高K召回率。我们的研究结果表明，所提出的EEGClip框架在64个和2048个时期的批量训练时取得了优越的性能。这种配置对不同的k值产生了最高的召回率微调顶部的精度批次大小\Epochs 64 128 256 512 1024 2048 16 0.26/0.45/0.60 0.37/0.59/0.71 0.51/0.75/0.81 0.59/0.80/0.85 0.69/0.88/0.92 0.73/0.90/0.93 EEG 32 0.32/0.53/0.68 0.43/0.68/0.79 0.53/0.80/0.87 0.61/0.87/0.90 0.72/0.92/0.95 0.77/0.94/0.96 64 0.34/0.54/0.69 0.44/0.67/0.82 0.57/0.80/0.85 0.68/0.89/0.93 0.76/0.94/0.97 0.79/0.96/0.98 16 0.78/0.88/0.91 0.83/0.90/0.92 0.87/0.93/0.95 0.89/0.96/0.98 0.91/0.97/0.98 0.92/0.97/0.99 图32 0.80/0.91/0.94 0.84/0.92/0.95 0.90/0.96/0.98 0.92/0.97/0.99 0.92/0.96/0.98 0.93/0.96/0.99 64 0.84/0.94/0.95 0.88/0.95/0.98 0.91/0.97/0.98 0.93/0.98/0.99 0.94/0.97/0.99 0.95/0.99/1.0 表4：EEGClip。在EEGCVPR40 [39]数据集上对EEGClip网络进行脑电图和图像分类的细化结果。真实值前5名检索图像图8：使用脑电图检索图像。显示了从EEGCVPR40[39] 的测试数据中检索到的给定脑电图信号的前5个图像。利用预先训练好的EEGClip的权值来提取图像和脑电图的特征，在这里，地面真实表示与给定的脑电图相等的期望图像。我们在图8中给出了脑电图的图像检索结果。这些结果表明，我们的框架能够基于脑电图输入准确地检索相关图像。 4.5. 在EEGCVPR40滤波器数据集上的实验(5 - 95 薄雾根据第4.4节，对于EEGClip，当使用批处理大小为 64时，可以获得最佳性能。因此，我们在EEGCVPR40滤波器数据集（5-95 Hz）[39]上进行实验时，采用了相同的批处理大小。我们将我们的方法与Palazzo等人的 [30]进行了比较，他们在相同的滤波器数据集上进行了实验，达到了60的精度。脑电图分类为4%，图像分类94%。我们表现最好的模型，对应于批大小 64和2048个时期（如表5所示），脑电图分类准确率为 64%，图像分类准确率为94%。 4.6. 图像检索任务的定量性能我们采用基于脑电图输入的EEGClip模型（图4）进行图像检索任务。从我们的实验中得到的结果已在本文中提出。然而，为了提供一个更全面的结果分析，我们使用了两个特定的指标：平均倒数排名（MRR）和平均平均精度（mAP）来进行排名评估。MRR度量评估了检索模型在对唯一的视觉线索实例进行准确排序方面的有效性，而mAP度量则评估检索模型捕获所有相关视觉线索的能力。这些相关的视觉线索对应于与正确匹配属于同一语义类的图像。对于EEGCVPR40 [39]数据集，我们的方法得到的 MRR 为 0.7427，mAP 为 0.6689。这些分数是通过与64个批大小相关的模型获得的，并训练了2048个时代。 5. 讨论本文针对脑电图到图像的重建问题，提出了一种从脑电图数据中提取视觉信息，利用提取的脑电图特征合成图像，并联合训练脑电图模型用于基于脑电图的图像检索等任务。我们在三个不同的数据集上进行了实验和消融研究： EEGCVPR40 [39]、ThoightViz[ 22,41]和Objiect[17]，使用不同的结构和损耗函数。我们首先讨论了从脑电图数据中提取特征的不同策略，包括监督方法和自监督方法。我们将监督分类方法与基于自监督/度量的学习方法进行了比较，发现后者产生了更具鉴别性和可推广性的特征，特别是使用三重损失。我们通过改进的k-means精度、t-SNE可视化和零镜头分类来证明了同样的情况。接下来，我们探索了使用GAN框架从脑电图特征中生成图像。为此，我们提出微调顶部的精度批次大小\Epochs 64 128 256 512 1024 2048 脑电图描记器 64 0.28/0.39/0.48 0.37/0.53/0.69 0.45/0.66/0.81 0.53/0.77/0.86 0.59/0.82/0.89 0.64/0.86/0.92 图64 0.78/0.88/0.92 0.83/0.92/0.95 0.87/0.94/0.97 0.90/0.95/0.98 0.92/0.96/0.99 0.94/0.98/0.99 表5：EEGClip。在EEGCVPR40滤波器数据集（5-95 Hz）[39]上细化EEGClip网络进行脑电图和图像分类的结果。图9：基于类的条件处理。目的：展示了利用EEGCVPR 40 [39]数据集的脑电图生成图像的复杂性。我们训练了一种被称为NoisyTwins [33]的StyleGAN2的变体，用于学习在长尾条件数据集或具有较少图像的条件数据集上的图像生成，这是EEGCVPR40数据集的情况。我们没有使用脑电图，而是使用了单热编码来进行条件反射。在类标签条件下，我们取得的最佳FID分数是 105.5分。 EEGStyleGAN-ADA，它结合脑电图特征和噪声向量来合成不同的高保真图像。我们的方法优于以前的脑e图到图像合成网络，有62个。9%和36岁。对EEGCVPR40 [39]数据集和[22,41][22,41]数据集的初始分数提高了13%，这优于使用GAN的最先进的性能。我们已经证明，在基于类的条件反射4.3的帮助下，实现逼真的效果并不是很简单的。此外，我们还研究了EEG脑电图和图像的联合表示空间学习构架我们通过冻结一个预先训练过的图像编码器的权值和使用基于clip的损失训练一个脑电图特征编码器，在联合表示学习方面取得了显著的改进。在检查了批大小和历元数的影响后，我们观察到批大小的增加与性能的增强之间存在直接相关性，在64和2048个批次大小时达到峰值，脑电图和图像的top@1得分分别为79%和95%。然而，将历元计数延长到这一点之后并没有显示出明显的改善。EEGClip已经显示了5个。比以前的最先进的联合表示学习方法提高了96%。限制。拟议的工作有一些局限性。 1) 虽然我们在所有数据集上使用了相同的结构进行脑电图特征提取的方法，但使用单一结构实现SOTA性能仍然是一个有待解决的问题。2)在基于脑电图的图像合成中，我们优于以往的方法。尽管如此，在有限的数据集条件下，可以通过更好的GAN训练策略提高图像的图像质量，我们可以进一步利用其用于基于脑电图的图像重建。 6. 结论在本研究中，我们的主要目的是提高脑电图信号的图像合成质量。为了实现这一点，我们引入了 EEGStyleGAN-ADA，这是一个框架，能够利用小型和大型脑电图数据集直接从脑电图信号生成高分辨率图像（128×128128），性能优于以前的先进技术。除了图像合成外，我们还提出了一个联合表示学习框架，以弥合脑电图和图像表示之间的差距。通过结合这两种模式的力量，我们获得了更丰富、更全面的表示，使我们能够使用脑电图信号来执行图像检索任务。我们详尽的实验证实了这种联合表示学习方法的有效性，并展示了它在现实应用中的潜力。此外，我们还展示了基于三重损失的特征提取方法的零镜头分类能力。我们未来的努力将进一步改进基于脑电图的图像合成，探索新的技术，并完善现有的框架。此外，我们的目标是扩大我们的调查，包括基于脑电图的视频分析的新兴领域，利用时间动态来生成和分析视觉内容。