1 研究结果
我们认为我们研究中一些最引人注目的观察结果源自第4节,在该节中,脑-大型语言模型(Brain-to-LLM)参与者显示出比大型语言模型(LLM)组的第1、2、3节更高的神经连接性(网络范围内的α、β、θ和δ波段定向连接的峰值)。
这表明,使用AI工具重新写一篇论文(在之前没有AI的写作之后)使得大脑网络之间的互动更加广泛。相比之下,LLM-脑组在之前接触到LLM的情况下,在大多数波段上显示出较少的协调神经努力,以及LLM特定词汇的偏差。
尽管在人工智能评审和人类教师评分中都获得了高分,但他们的论文在NER/n-gram使用的距离上与其他组的其他节相比表现得不那么突出。在主题层面上,少数主题在LLM组和仅脑组之间显著且几乎正交地偏离(如幸福或慈善主题)。
2 关键结果
第四组实验如下:
markdown
总共有18名参与者,从之前写的主题中选择,参与者的重新分配:脑到大型语言模型(LLM)和大型语言模型到脑。
与之前的脑会话(脑对LLM)相比,更好地整合了内容。更多的信息检索提示。在所有组中得分大多高于平均水平。拆分所有权。
高记忆回忆。低战略整合。相比于仅LLM的第1、2、3次会议,脑-LLM参与者在所有频段具有更高的定向连接性。
使用了来自之前大型语言模型会话的n-gram。经过小组内人类老师评分更高。分拆了所有权。
高记忆回忆。高战略整合。第四次会议的大脑连接没有重置为新手(第一次会议,仅限大脑)模式,但它也没有达到第三次会议,仅限大脑的水平。反映出网络参与的中级状态。连接性明显低于第二次、第三次(阿尔法)会议或第三次会议(贝塔)观察到的高峰,但仍高于第一次会议。
本研究探讨了 LLM 辅助论文写作的神经和行为后果。参与者被分为三组:LLM、Search Engine 和 Brain-only(无工具)。每个人都在相同条件下完成了三个会话。在第四次会话中,LLM 用户被重新分配到仅大脑组 (LLM-to-Brain),仅大脑用户被重新分配到 LLM 条件 (Brain-to-LLM)。共有 54 名参与者参加了第 1-3 节,其中 18 人完成了第 4 节。我们使用脑电图 (EEG) 来评估论文写作过程中的认知负荷,并使用 NLP 分析论文,并在人类教师和 AI 裁判的帮助下为论文评分。

在各组之间,NERs 、 n-gram 模式和主题本体显示出组内同质性。脑电图显示大脑连接性存在显着差异:纯脑参与者表现出最强、最分散的网络;搜索引擎用户表现出适度的参与度;和 LLM 用户显示最弱的连接。认知活动相对于外部工具的使用而缩小。
在第 4 节中,LLM 到 Brain 参与者表现出 alpha 和 beta 连接性降低,表明参与度不足。
Brain-to-LLM 用户表现出更高的记忆回忆和枕顶叶和前额叶区域的激活,类似于搜索引擎用户。自我报告的论文所有权在 LLM 组中最低,在 Brain-only 组中最高。
LLM 用户也很难准确引用他们自己的作品。虽然 LLM 提供了即时的便利,但我们的研究结果突出了潜在的认知成本。
在四个月的时间里,LLM 用户在神经、语言和行为层面的表现始终不佳。这些结果引发了对依赖 LLM 的长期教育影响的担忧,并强调了对 AI 在学习中的作用进行更深入研究的必要性。
人工智能LLM 用户也很难准确引用他们自己的作品。虽然 LLM人工智能 提供了即时的便利,但我们的研究结果突出了潜在的认知成本。在四个月的时间里,LLM 用户在神经、语言和行为层面的表现始终不佳。
pdf 格式