Meta AI 研发新成果,利用脑电信号将人类大脑活动解码并可视化。这项研究开辟了一条前所未有的新途径,能够帮助科学界了解图像如何在大脑中表示,进一步揭示人类智能的其他方面。
AI 读心术成了!?
今天 LeCun 转发了 Meta AI 最新的突破:AI 已经能够实时解码大脑活动中的图像感知!
这项研究是由 FAIR-Paris 与巴黎文理大学(PSL)巴黎高师(ENS)合作完成,是在利用脑磁图(MEG)信号重建视觉和语音输入方面取得的一个新的里程碑。
论文地址:ai.meta.com/static-reso...
Meta 使用脑磁图(MEG)这种非侵入性神经成像技术,每秒进行数千次大脑活动扫描,并开发了一个 AI 系统,能够几乎实时地解码大脑中的视觉表征。
这个系统可以实时部署,根据大脑活动重建大脑在每个瞬间感知和处理的图像。
可以说,这项研究开辟了一条前所未有的新途径,能够帮助科学界了解图像如何在大脑中表示,从而进一步揭示人类智能的其他方面。
从长远来看,它还可能作为临床环境中的非侵入性脑机接口的基础,帮助那些在遭受脑损伤后失去说话能力的人与外界沟通。
具体来说,Meta 开发了一个由图像编码器、大脑编码器和图像解码器组成的系统。
图像编码器在大脑之外独立构建一组丰富的图像表示。然后,大脑编码器学习将 MEG 信号与这些构建出来的图像进行嵌入对齐。
最后,图像解码器根据这些大脑表征生成可信的图像。
Meta 首先比较了各种预训练图像模块的解码性能,发现大脑信号与计算机视觉 AI 系统(如 DINOv2)的一致性非常强。
这个研究结果证实了自监督学习能让 AI 系统学习类似大脑的表征方式------算法中的人工神经元往往会像大脑的物理神经元一样被激活,来响应相同的图像。
这种 AI 系统和大脑功能的协调一致性,可以让 AI 生成与人类在扫描仪中看到的图像高度相似的图像。
基于这个原理,Meta 在一个公开的 MEG 数据集上训练出了这个系统。
Meta 认为,虽然功能性磁共振成像 (fMRI) 可以更好地解码图像,但 MEG 解码器可以实时生成结果,连续解码大脑活动,生成连续而且几乎是实时的图像流。
这对于帮助那些因为大脑损伤而不能与外界沟通的患者,与外界进行实时交流是非常关键的。
前置知识,什么是脑磁图(MEG) ?
脑磁图 (MEG) 是一种功能性神经成像技术,通过使用非常灵敏的磁力计记录大脑中自然发生的电流产生的磁场来绘制大脑活动图。
SQUID(超导量子干涉装置)阵列是目前最常见的磁力计,而 SERF(无自旋交换弛豫)磁力计正在被研究用于未来的 MEG 机器。
MEG 的应用包括感知和认知大脑过程的基础研究、手术切除前定位受病理影响的区域、确定大脑各个部分的功能以及神经反馈。这可以应用于临床环境中以查找异常位置,也可以应用于实验环境中以简单地测量大脑活动。
科恩博士在麻省理工学院的屏蔽室,使用 SQUID 测试了第一个 MEG
科恩博士在麻省理工学院的屏蔽室,使用 SQUID 测试了第一个 MEG
AI 读脑的技术架构
作者提出了多模态的训练 pipeline:
(1)首先将 MEG 活动与经过预训练的图像特征进行对齐;
(2)从 MEG 信号流中生成图像
图 1:(A)方法,冻住预训练模型 (B)处理方案,与图像生成不同,图像检索可以在对齐的次空间中进行,但要求在检索集中有正样本图像。
作者提到,这个系统有两大贡献:
MEG 解码器可实现 (1) 高性能图像检索和图像生成,
(2) 为解释大脑视觉处理提供新方法。这表明提出的方法有能力真正推广到新的视觉理念,并为「自由形式(free-form)」视觉解码铺平道路。
总之,研究结果为在实验室和临床中对视觉表征进行实时解码,开创了一个大有可为的方向。
方法(Method)
1. 问题描述
作者研究的目的是,让一群健康的参与者看一系列自然图像,使用 MEG 记录他们的大脑活动,然后从时序的信号中解码图像,而解码器依赖的是生成模型。
2. 训练目标
作者提出的 pipeline 有多个部分,因此使用多目标优化策略,在图像检索时,使用得是 CLIP Loss。
为了评估生成图像的质量,使用 MSE Loss,
最后,作者使用带权重的凸组合方式,将 CLIP 和 MSE 损失组合起来,进而完成训练目标。
3. 脑模型
作者使用卷积神经网络架构去提取特征,在此基础之上,添加了时序聚合层,以减少维度,节约计算开销。
4. 图像模型
对于图像的特征编码,作者探讨了 VGG-19、CLIP 及其变体,以及 Transformer 结构。
5. 生成模型
为了能够公平的和 fMRI 结果进行比较,作者和其他论文一样使用了预训练模型,再在此任务上进行训练。
6. 训练的计算资源消耗
夸模态检索任务是在大约 63,000 个图像上训练的,验证集大约 15,800 张图像。使用了一张 32GB 内存的 Volta GPU。
7. 评估方法
作者为了评估方法的有效性,使用了检索指标 relative median rank,top-5 accuracy,生成指标 PixCorr、SSIM、SwAV。同时,为了对 MEG 解码性能进行公平评估,作者利用了数据集中的重复图像演示,在评估指标之前对预测值取平均值。
8. 数据集:
THINGS 数据集
作者在 THINGS-MEG 数据集上测试方法。四名参与者(平均年龄为 23.25 岁)接受了 12 次 MEG 训练,在训练过程中,他们看到了从 THING 数据集中选取的 22,448 幅图像。在此基础上,向他们展示了一组从 THINGS 数据库中选取的图像,用这些图片来扩大检索规模,并提高检索能力,进而提高方法的鲁棒性。
结果
机器学习被认为是理解大脑反应的有效模型
面对自然图像表示,哪些模型能提供最强大的解码性能?
为了回答这个问题,Meta 采用线性岭回归模型(linear Ridge regression models),在给定对于每张图像的扁平化 MEG 响应的条件下预测到 16 种不同的潜在视觉表示,并比较了检索性能。如下表所示。
所有的图像嵌入都展现了高于随机水平的检索性能,但监督和文本 / 图像对齐模型(如 VGG, CLIP)获得了最高的检索分数。
机器学习被视为学习大脑反应的有效工具
Meta 随后将这些线性基线与在相同任务上训练的深度卷积网络结构进行比较------在 MEG 窗口中检索匹配的图像。
使用深度模型使性能比线性基线提高了 7 倍(如下图 2)。
多种图像嵌入类型都展现出良好的检索性能,其中 VGG-19(监督学习)、CLIP-Vision(文本 / 图像对齐)和 DINOv2(自监督学习)的前五准确率分别为:70.33 ± 2.80%、68.66 ± 2.84%、68.00 ± 2.86%(计算了平均图像度量的标准误差)。
从「大」测试集设置可以得出类似的结论,虽然性能较低,但解码不仅依赖于图像类别,还需要区分同一类别的多张图像。代表性的检索示例如下图。
时间分辨率级别的图像检索
为了进一步研究视觉表征在大脑中展开的可能性,作者在 250ms 的滑动窗口上做了分析:
在图像呈现之前,所有模型都获得了基准水平的表现;在图像 0~250ms 的窗口中可以观察到第一个明显的峰值,随后在图像偏移之后出现第二个峰值,然后迅速回落到 0 到 250 毫秒的窗口中,所有模型都符合这个规律。
有趣的是,最近的自监督模型 DINOv2 在图像偏置后的检索性能尤为出色。
为了更好地理解解码指标的含义,下图展示了通过将原有测试集与由 3,659 张参与者未见过的图片组成的附加集,在这上测试了检索结果。
可以出看,解码器利用了图像与偏置相关的大脑反应,并早在 250ms 时,类别信息就主导了这些视觉表征。
从 MEG 信号中生成图像
虽然将解码作为检索任务会产生很好的结果,但它要求正样本图像必须在检索集中,这在实践中的应用很有限。为了解决这个问题,作者训练了三个不同的大脑模块来预测。
根据表格 1 中的评估指标,生成的图像在视觉上表现出相对较高的质量,多个生成的图像正确地呈现了语义类别。然而,这些生成的图像似乎包含来真实图像的低级视觉信息。
讨论
影响力(Impact)
这个研究具有基础性和实用性的影响。
首先,随着时间的推移解码复杂感知表示的能力,有望极大地促进人类理解大脑视觉处理过程中所涉及的各种过程。
有大量的工作正在检查视觉系统沿途构建的表示的性质和时序。然而,这些结果可能难以解释,特别是对于高级特征。
而这个研究中的生成解码提供了具体且可解释的预测。
其次,大脑解码技术最明显的用例是协助那些大脑损伤影响沟通的患者。
然而,这个用例需要实时解码,因此限制了使用时间分辨率较低的神经影像学模态如 fMRI。
因此,当前的努力为未来能够实时解码铺平了道路。
局限性(Limitations)
Meta 的分析突显了从 MEG 信号解码图像的三个主要限制。
首先,高级语义特征的解码优先于低级特征的解码:特别是,生成的图像保留了语义(例如,对象类别)比低级特征(例如,轮廓,阴影)更好。
很难将这种现象归因于研究的流程:实际上,将类似的程序应用于 7T fMRI 记录,可以合理地重建低级特征。
相反,这个结果与 MEG 的空间分辨率(≈ cm)远低于 7T fMRI 的(≈ mm)这个事实相呼应。
其次,目前的方法直接依赖于几个模型的预训练,并且只是端到端地学习将 MEG 信号与这些预训练的嵌入对齐。
研究的结果显示,这种方法的性能优于传统的计算机视觉特征,如色彩直方图、快速傅里叶变换和方向梯度直方图(HOG)。
这与最近的 MEG 研究保持一致,该研究显示,在语音解码的背景下,预训练的嵌入优于完全的端到端方法。
然而,未来仍需测试两个方面:
(1)微调图像和生成模块
(2)组合不同类型的视觉特征是否能够改善解码性能。
参考资料: