【新智元导读】Sakana AI 刚刚官宣,第二代「AI 科学家」独立完成论文,通过了 ICLR 2025 Workshop 的同行评审。这是首次完全由 AI 端到端生成的科学论文,获得了学术高度认可。
首篇完全由 AI 生成的论文,竟通过了 ICLR 2025 同行评审!
刚刚,Sakana AI 正式亮相 AI Scientist-v2 版本,直接踢破了 AI 顶会的大门。
从提出科学假设、设计实验、到编写代码、运行实验、分析数据、绘制图表,再到撰写完整论文,所有环节均由 AI 完成。
研究人员向 2025 ICLR Workshop,一共提交了 3 篇 AI 生成的论文,全部进入双盲评审。
显然,审稿人完全不知道,他们评审的是 AI 生成的作品,并且按照评审人类科学家论文的标准,进行严格评判。
3 篇论文中,只有一篇 Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization,平均获 6.25 的高分(6,7,6,6),远高于许多人类作者的论文。
论文地址:github.com/SakanaAI/AI...
另外两篇全部败北。
Sakana AI 特别强调,这是首次通过「与人类科学家相同标准」的同行评审论文。
AI 科研历史性时刻来了!
AI 闯入科研殿堂,全程无人干预
要知道,ICLR 与 NeurIPS、ICML 并称机器学习和人工智能研究领域三大顶级会议。
如前所述,Sakana AI 在由 2025 ICLR 主办的 Workshop------ICBINB 上,展开了这项实验。
这个研讨会涉及的议题非常广泛,挑战者(包括 AI 科学家)需要处理多样化研究课题,去解决深度学习的实际局限性。
sites.google.com/view/icbinb...
那么,AI 论文是如何参与评审过程的呢?
评审过程
通过与 ICLR Workshop 商定,研究团队提交了 3 篇 AI 生成的论文,参与同行评审。
审稿人并未明确被告知,他们所评审的论文是由 AI 生成的。在 ICLR Workshop「评审指南」中,明确规定了这一点。
关键在于,Sakana AI 提交的 AI 生成论文,完全由「AI 端到端」生成,未经任何人类修改。
AI Scientist-v2 不仅提出了科学假设,设计了测试假设的实验,还编写并优化了实验代码,运行实验,分析数据,将数据可视化为图表。
并且,它还撰写了整篇科学稿件的每一个字,从标题到最后的参考文献,包括图表放置和所有格式。
全程没有人类参与,为了监督研究,Sakana AI 研究员仅是为 AI 提供了研究的广泛主题,并提交了 3 篇他们自认为比较好的论文。
在提交的 3 篇论文中,其中两篇未达到接受标准。
另外一篇论文的平均得分为 6.25,在所有提交中排名约 45%。这一分数高于研讨会中许多被接受的人类撰写论文,高于平均接受门槛。具体评分为:
- 评分:6:略高于接受门槛
- 评分:7:好论文,接受
- 评分:6:略高于接受门槛
- 评分:6:略高于接受门槛
对 AI 生成论文的分析
除了同行评审过程,作为人类 AI 研究者,Sakana AI 还对所有 3 篇 AI 生成论文进行了自己的分析和评审。
团队为每篇论文撰写了全面的评审意见。
除了自己的评审之外,Sakana AI 还为每篇 AI 生成的论文添加了内联评论
他们扮演了 ICLR 会议审稿人的角色,向论文作者 AI Scientist 提出了自己发现的问题,并建议作者如何通过回应我们提出的问题改进论文。
与研讨会评审过程不同,这种双向交流是顶会或期刊典型同行评审过程的一部分,审稿人与作者共同改进作品。
如下图所示,AI Scientist 偶尔会犯令人尴尬的引用错误。
在这里,研究团队发现它错误地将「基于 LSTM 神经网络」引用写成 Goodfellow(2016),而正确的作者应是 Hochreiter 和 Schmidhuber(1997)。
除了评审和评论外,研究团队还在初审阶段,为每篇论文提供了初步评估分数,评估依据顶级 ML 会议(如 NeurIPS、ICLR)的指南进行。
最终,他们得出结论:这 3 篇论文在其当前形式下,均未达到内部认为能被 ICLR 主会场接受的内部标准。
然而,他们认为提交至 Workshop 的论文能够提出有趣、原创的初步想法,可以进一步的大发展,因此研究人员认为它们可能更适合 ICLR Workshop 分会场。
目前,Sakana AI 已在 GitHub 仓库中,公开了内部人类评审意见,以及这 3 篇 AI 生成论文。
项目地址:github.com/SakanaAI/AI...
AI 中的不是主会,内部评审未通过
Sakana AI 团队坦承,目前 AI 生成的论文,在其内部标准下尚未达到 ICLR 主会场的接受水平。
在 ICLR、ICML、NeurIPS 三大顶会主场,接受率通常在 20-30% 之间,而 ICBINB Workshop 接受率在 60-70% 之间。
尽管这只是 Workshop,而非主会场的成果,但这一里程碑式突破预示着更大变革即将到来。
在未来的研究中,团队打算继续改进流程,生成更高质量的科学论文,争取通过顶级会议的标准。
Sakana AI 还指出,AI Scientist 主要基于当前最先进的 LLM 打造,因此其表现直接与这些 LLM 的性能相关。
如果前沿基础模型得到持续改进,那么 AI Scientist 也将不断提升。
主动撤回论文,科学规范不能破
值得一提的是,Sakana AI 在进行这项研究时,高度重视透明度与伦理规范。
他们认为,科学界研究 AI 生成研究的质量非常重要,而最好的方法之一是,将少量样本提交至与评估人类科学研究相同的严格同行评审过程(前提是已获得管理这些过程的相关方许可)。
Sakana AI 与 ICLR 组委会,以及 Workshop 组织者全面合作才展开的实验,并获得了不列颠哥伦比亚大学机构审查委员会(IRB)的批准。
此外,AI 生成论文不会在 OpenReview 的公共论坛上公开。根据事先约定的实验协议,Sakana AI 主动撤回了被接受的论文。
这是因为,AI 和科学界尚未决定是否希望在相同场合发表 AI 生成的稿件。
团队认为,「作为一个共同体,我们需要制定关于 AI 生成科学的规范,包括何时以及如何声明一篇论文由 AI 生成」。
「AI 科学家」的未来
Sakana AI 坚信相信,AI Scientist 的下一代将开启科学的新时代。
AI 能够生成一篇通过顶级 ML Workshop 同行评审的完整科学论文,展现了非常有前景的早期进展迹象。
但,这只是开始。
随着 AI 继续改进,AI Scientist 的能力可能呈指数级增长。
在未来某个时候,AI 很可能会生成达到甚至超越人类水平的论文,不仅能在顶级 ML 顶会上被接受,还能在顶级科学期刊中发表。
参考资料: