谷歌最新发现,大模型竟意外对应人脑语言处理机制?!
他们将真实对话中的人脑活动与语音到文本 LLM 的内部嵌入进行了比较,结果两者之间呈现线性相关关系。
比如语言理解顺序,首先是语音,然后是词义;又或者生成顺序:先计划,再发音,然后听到自己的声音。还有像在上下文预测单词,也表现出了惊人的一致性。
其论文发表在了 Nature 子刊。
网友表示:这个问题比大多数人意识到的要重要得多。
谷歌对齐大模型与人脑信号
他们引入了一个统一的计算框架,将声学、语音和单词级语言结构联系起来,以研究人脑中日常对话的神经基础。
他们一边使用皮层电图记录了参与者在进行开放式真实对话时语音生成和理解过程中的神经信号,累计 100 小时。另一边,Whisper 中提取了低级声学、中级语音和上下文单词嵌入。
然后开发编码模型,将这些嵌入词线性映射到语音生成和理解过程中的大脑活动上,这一模型能准确预测未用于训练模型的数小时新对话中语言处理层次结构各层次的神经活动。
结果他们就有了一些有意思的发现。
对于听到的(语音理解过程中)或说出的(语音生成过程中)每个单词,都会从语音到文本模型中提取两种类型的嵌入:
来自模型语音编码器的语音嵌入和来自模型解码器的基于单词的语言嵌入。
通过估计线性变换,可以根据语音到文本的嵌入来预测每次对话中每个单词的大脑神经信号。
比如听到「How are you doing?」,大脑对语言理解的神经反应序列 be like:
当每个单词发音时,语音嵌入能够预测沿颞上回(STG)的语音区域的皮层活动。
几百毫秒后,当听者开始解码单词的含义时,语言嵌入会预测布罗卡区(位于额下回;IFG)的皮层活动。
不过对于回答者,则是完全相反的神经反应序列。
在准备发音「Feeling Fantastic」之前,在发音前约 500 毫秒(受试者准备发音下一个单词时),语言嵌入(蓝色)预测布罗卡区的皮层活动。
几百毫秒后(仍在单词发音之前),当说话者计划发音时,语音嵌入(红色)预测运动皮层(MC)的神经活动。
最后,在说话者发音后,当听者聆听自己的声音时,语音嵌入会预测 STG 听觉区域的神经活动。
这种动态变化反映了神经处理的顺序------
首先是在语言区 计划说什么,然后是在运动区 如何发音,最后是在感知语音区监测说了什么。
全脑分析的定量结果显示,对于每个单词,根据其语音嵌入(红色)和语言嵌入(蓝色),团队预测了每个电极在单词出现前 -2 秒到出现后 +2 秒(图中 x 轴值为 0)的时滞范围内的神经反应。这是在语音生成(左图)和语音理解(右图)时进行的。相关图表说明了他们对所有单词的神经活动(相关性)的预测准确度与不同脑区电极滞后的函数关系。
在语音生成过程中,IFG 中的语言嵌入(蓝色)明显先于感觉运动区的语音嵌入(红色)达到峰值,随后 STG 中的语音编码达到峰值。相反,在语音理解过程中,编码峰值转移到了单词开始之后,STG 中的语音嵌入(红色)峰值明显早于 IFG 中的语言编码(蓝色)峰值。
总之研究结果表明,语音到文本模型嵌入为理解自然对话过程中语言处理的神经基础提供了一个连贯的框架。
令人惊讶的是,虽然 Whisper 完全是为语音识别而开发的,并没有考虑大脑是如何处理语言的,但他们发现它的内部表征与自然对话过程中的神经活动是一致的。
尽管大模型在并行层中处理单词,但人类大脑以串行方式处理它们,但反映了类似的统计规律。
大模型与人类大脑之间的吻合揭示了神经处理中的 **「软层次 」**这一概念,大脑中较低级别的声学处理和较高级别的语义处理部分重叠。
大模型与人脑之间的异同
日常生活中,人类大脑如何处理自然语言?从理论上讲,大语言模型和人类的符号心理语言学模型是两种完全不同的计算框架。
但受到大模型成功的启发,谷歌研究院与普林斯顿大学、纽约大学等合作,试图探索人脑和大模型处理字眼语言的异同。
经过过去五年一系列研究,他们探索了特定特定深度学习模型的内部表征(嵌入)与自然自由对话过程中人脑神经活动之间的相似性,证明了深度语言模型的嵌入,可以作为**「理解人脑如何处理语言」**的框架。
在此之前,他们就完成了多项研究。
比如 2022 年发表在 Nature Neuroscience 上论文显示,他们发现与大模型相似,听者大脑的语言区域也会尝试在下一个单词说出之前对其进行预测;而在单词发音前对预测的信心会改变他们在单词发音后的惊讶程度(预测误差)。
这些发现证明了自回归语言模型与人脑共有的起始前预测、起始后惊讶和基于嵌入的上下文表征等基本计算原理。
还有发表在 Nature Communications 另一篇论文中还发现,大模型的嵌入空间几何图形所捕捉到的自然语言中单词之间的关系,与大脑在语言区诱导的表征(即大脑嵌入)的几何图形一致。
不过即便计算原理类似,但他们底层神经回路架构却明显不同。
在一项后续研究中,他们调查了与人脑相比,基于 Transformer 的大模型是如何跨层处理信息的。
结果发现,虽然跨层非线性变换在 LLMs 和人脑语言区中相似,但实现方式却大相径庭。Transformer 架构可同时处理成百上千个单词,而人脑语言区似乎是按顺序、逐字、循环和时间来分析语言的。
基于这些积累的研究成果,他们的目标是创建创新的、受生物启发的人工神经网络,提高其在现实世界中处理信息和发挥作用的能力。
参考链接:
1\][research.google/blog/deciph...](https://link.juejin.cn?target=https%3A%2F%2Fresearch.google%2Fblog%2Fdeciphering-language-processing-in-the-human-brain-through-llm-representations%2F "https://research.google/blog/deciphering-language-processing-in-the-human-brain-through-llm-representations/") \[2\][www.nature.com/articles/s4...](https://link.juejin.cn?target=https%3A%2F%2Fwww.nature.com%2Farticles%2Fs41562-025-02105-9 "https://www.nature.com/articles/s41562-025-02105-9") \[3\][x.com/GoogleAI/st...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FGoogleAI%2Fstatus%2F1903149951166902316 "https://x.com/GoogleAI/status/1903149951166902316") \[4\][x.com/rohanpaul_a...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Frohanpaul_ai%2Fstatus%2F1903373048260284868 "https://x.com/rohanpaul_ai/status/1903373048260284868")