AI读脑成真，延迟仅0.25秒！Meta里程碑新研究：MEG实时解码大脑图像，LeCun转赞

Meta AI 研发新成果，利用脑电信号将人类大脑活动解码并可视化。这项研究开辟了一条前所未有的新途径，能够帮助科学界了解图像如何在大脑中表示，进一步揭示人类智能的其他方面。

AI 读心术成了！？

今天 LeCun 转发了 Meta AI 最新的突破：AI 已经能够实时解码大脑活动中的图像感知！

这项研究是由 FAIR-Paris 与巴黎文理大学（PSL）巴黎高师（ENS）合作完成，是在利用脑磁图（MEG）信号重建视觉和语音输入方面取得的一个新的里程碑。

论文地址：ai.meta.com/static-reso...

Meta 使用脑磁图（MEG）这种非侵入性神经成像技术，每秒进行数千次大脑活动扫描，并开发了一个 AI 系统，能够几乎实时地解码大脑中的视觉表征。

这个系统可以实时部署，根据大脑活动重建大脑在每个瞬间感知和处理的图像。

可以说，这项研究开辟了一条前所未有的新途径，能够帮助科学界了解图像如何在大脑中表示，从而进一步揭示人类智能的其他方面。

从长远来看，它还可能作为临床环境中的非侵入性脑机接口的基础，帮助那些在遭受脑损伤后失去说话能力的人与外界沟通。

具体来说，Meta 开发了一个由图像编码器、大脑编码器和图像解码器组成的系统。

图像编码器在大脑之外独立构建一组丰富的图像表示。然后，大脑编码器学习将 MEG 信号与这些构建出来的图像进行嵌入对齐。

最后，图像解码器根据这些大脑表征生成可信的图像。

Meta 首先比较了各种预训练图像模块的解码性能，发现大脑信号与计算机视觉 AI 系统（如 DINOv2）的一致性非常强。

这个研究结果证实了自监督学习能让 AI 系统学习类似大脑的表征方式------算法中的人工神经元往往会像大脑的物理神经元一样被激活，来响应相同的图像。

这种 AI 系统和大脑功能的协调一致性，可以让 AI 生成与人类在扫描仪中看到的图像高度相似的图像。

基于这个原理，Meta 在一个公开的 MEG 数据集上训练出了这个系统。

Meta 认为，虽然功能性磁共振成像 (fMRI) 可以更好地解码图像，但 MEG 解码器可以实时生成结果，连续解码大脑活动，生成连续而且几乎是实时的图像流。

这对于帮助那些因为大脑损伤而不能与外界沟通的患者，与外界进行实时交流是非常关键的。

前置知识，什么是脑磁图（MEG）？

脑磁图 (MEG) 是一种功能性神经成像技术，通过使用非常灵敏的磁力计记录大脑中自然发生的电流产生的磁场来绘制大脑活动图。

SQUID（超导量子干涉装置）阵列是目前最常见的磁力计，而 SERF（无自旋交换弛豫）磁力计正在被研究用于未来的 MEG 机器。

MEG 的应用包括感知和认知大脑过程的基础研究、手术切除前定位受病理影响的区域、确定大脑各个部分的功能以及神经反馈。这可以应用于临床环境中以查找异常位置，也可以应用于实验环境中以简单地测量大脑活动。

科恩博士在麻省理工学院的屏蔽室，使用 SQUID 测试了第一个 MEG

科恩博士在麻省理工学院的屏蔽室，使用 SQUID 测试了第一个 MEG

AI 读脑的技术架构

作者提出了多模态的训练 pipeline：

（1）首先将 MEG 活动与经过预训练的图像特征进行对齐；

（2）从 MEG 信号流中生成图像

图 1：（A）方法，冻住预训练模型（B）处理方案，与图像生成不同，图像检索可以在对齐的次空间中进行，但要求在检索集中有正样本图像。

作者提到，这个系统有两大贡献：

MEG 解码器可实现 (1) 高性能图像检索和图像生成，

(2) 为解释大脑视觉处理提供新方法。这表明提出的方法有能力真正推广到新的视觉理念，并为「自由形式（free-form）」视觉解码铺平道路。

总之，研究结果为在实验室和临床中对视觉表征进行实时解码，开创了一个大有可为的方向。

方法（Method）

1. 问题描述

作者研究的目的是，让一群健康的参与者看一系列自然图像，使用 MEG 记录他们的大脑活动，然后从时序的信号中解码图像，而解码器依赖的是生成模型。

2. 训练目标

作者提出的 pipeline 有多个部分，因此使用多目标优化策略，在图像检索时，使用得是 CLIP Loss。

为了评估生成图像的质量，使用 MSE Loss，

最后，作者使用带权重的凸组合方式，将 CLIP 和 MSE 损失组合起来，进而完成训练目标。

3. 脑模型

作者使用卷积神经网络架构去提取特征，在此基础之上，添加了时序聚合层，以减少维度，节约计算开销。

4. 图像模型

对于图像的特征编码，作者探讨了 VGG-19、CLIP 及其变体，以及 Transformer 结构。

5. 生成模型

为了能够公平的和 fMRI 结果进行比较，作者和其他论文一样使用了预训练模型，再在此任务上进行训练。

6. 训练的计算资源消耗

夸模态检索任务是在大约 63,000 个图像上训练的，验证集大约 15,800 张图像。使用了一张 32GB 内存的 Volta GPU。

7. 评估方法

作者为了评估方法的有效性，使用了检索指标 relative median rank，top-5 accuracy，生成指标 PixCorr、SSIM、SwAV。同时，为了对 MEG 解码性能进行公平评估，作者利用了数据集中的重复图像演示，在评估指标之前对预测值取平均值。

8. 数据集：

THINGS 数据集

作者在 THINGS-MEG 数据集上测试方法。四名参与者（平均年龄为 23.25 岁）接受了 12 次 MEG 训练，在训练过程中，他们看到了从 THING 数据集中选取的 22,448 幅图像。在此基础上，向他们展示了一组从 THINGS 数据库中选取的图像，用这些图片来扩大检索规模，并提高检索能力，进而提高方法的鲁棒性。

结果

机器学习被认为是理解大脑反应的有效模型

面对自然图像表示，哪些模型能提供最强大的解码性能？

为了回答这个问题，Meta 采用线性岭回归模型（linear Ridge regression models），在给定对于每张图像的扁平化 MEG 响应的条件下预测到 16 种不同的潜在视觉表示，并比较了检索性能。如下表所示。