首个 AI 科学家发论文进 ICLR!得分 6/7/6,从选题到实验全程零人工,连 GitHub 代码库都是 AI 写的

嚯!完全由 AI 生成的论文,通过顶会 ICLR workshop 评审?!

分数为 6/7/6,已经超过平均人类接收门槛。

论文是酱婶的。

整个通篇看下来,图表论据俱全,十分有模有样。

这篇论文,由首位 AI 科学家 AI Scientist 的 2.0 版本完成。

背后公司 Sakana AI,是 Transformer 作者之一的 Llion Jones 的创业公司。

新版本 2.0 是一个通用端到端 Agent 系统,与原版本不同的是,它摆脱了对人工模版的依赖,能够自主生成假设、运行实验、分析数据并撰写科学论文,图表理解能力也更强。

它在 ML 领域中具有更强的泛化能力,并采用由实验管理 Agent 引导的渐进式代理树搜索_(AgenticTreeSearch)_。

就连它的 GitHub 开源代码库都是由大模型来编写。

AI 生成论文通过顶会评审

首先来看这篇完全由 AI 生成的论文,官方透露了诸多细节。

这篇论文的标题为:《组合正则化:增强神经网络泛化的意外障碍》。论文中的提出了一种旨在增强神经网络组成泛化的组成正则化方法,进行了大量实验以评估其影响,并分析了算子复杂性对模型性能的影响,讨论了组成正则化没有产生预期效益的潜在原因。

当时 ICLR workshop 同意他们递交 3 篇 AI 生成的论文进行同行评审。

评审人员会被告知他们正在评审的论文可能是 AI 生成的(43 篇论文中有 3 篇),但并不知道分配给他们的论文作者到底是不是 AI。

SakanaAI 准备的论文完全由 AI 端到端生成,没有经过人类任何修改------

AI Scientist-v2 提出了科学假设,提出了测试假设的实验,编写和完善了进行这些实验的代码,运行实验,分析数据,将数据可视化为图表,并写下整个科学手稿的每一个字,从标题到最终参考文献,包括放置图表和所有格式。

整个过程,人类仅做的一个工作是,提供一个广泛的研究主题,最终他们挑选出了三篇排名前三论文_(考虑到多样性和质量)_提交给研讨会。

**△**团队为每篇生成的论文撰写了全面的评论

最终,在提交的三篇论文中,有两篇论文未达到接受标准。一篇论文的平均得分为 6.33_(分别是 6/6/7)_,在所有提交的论文中排名约 45%,高于人类平均接受门槛。

不过为了透明起见,这篇论文在同行评审之后被撤回,也不会在 OpenReview 公共论坛上发布,但是可以 GitHub 存储库中找到。

除此之外,他们发现 AI Scientist 偶尔也会犯一些引用错误。

比如将错误地将 "基于 LSTM 的神经网络" 归因于 Goodfellow (2016),而不是正确的作者 Hochreiter 和 Schmidhuber (1997)。

而为了提高实验结果的科学准确性、可重复性和统计严谨性,他们鼓励 AI Scientist 重复其每个实验(已选入论文)数次。

首位 AI 科学家 2.0

去年 8 月,首位 AI Scientist 横空出世,一出手就独立完成了 10 篇论文。现在的 2.0 生产的论文已经可以通过顶会同行评审。

值得一提的是,官方 GitHub 页面上,特别注明了两者的区别:AI Scientist-v2 并不一定能写出比 v1 更好的论文,尤其是在有强大的起始模板可用的情况下。

v1 遵循定义明确的模板,成功率较高,而 v2 则采用更广泛、更具探索性的方法,成功率较低。v1 最适合具有明确目标和坚实基础的任务,而 v2 则专为开放式科学探索而设计。

AI Scientist-v2 通过将树搜索与 LLM 工作流相结合,该工作流程由多个阶段组成,包括自动创意生成、实验执行、图表可视化、手稿撰写和审稿。

它采用代理树搜索(由实验进度管理器管理,跨越多个阶段)来生成和完善代码实现。随后的实验利用树搜索中表现最好的代码检查点(节点),对各种研究假设进行迭代测试。

Transformer 作者之一创业公司

背后公司 Sakana AI,Transformer 作者之一 Llion Jones_(简称狮子哥)_的创业公司。

他本硕毕业于伯明翰大学,在 Delcam、油管、谷歌都工作过,谷歌是他待得最久的一家公司。

据 FourWeekMBA 介绍称,在他之前的工作经历中,"曾两度与谷歌的工作擦肩而过"。

第一次是他刚毕业找工作时,虽然投了谷歌伦敦软件工程师的岗位,并通过了两轮电话面试,但最终相比谷歌,他选择了位于英国的 CAD/CAM 软件公司 Delcam。

值得一说的是,在拿下谷歌 offer 前,恰巧遇上 2009 年的经济危机,狮子哥找不到工作,好几个月都只能靠领取救济金勉强度日。

第二次是工作 18 个月后,他又接到了谷歌的招聘电话,询问他是否想重新申请,但他依旧没去谷歌,而是随后加入了 YouTube。

在 Youtube 做三年软件工程师期间,他对人工智能产生兴趣,自学了 Coursera 的机器学习课程,并终于在 2015 年的时候加入谷歌研究院,担任里面的高级软件工程师。

也正是在此期间,他与其他七名作者一起发表了那篇著名的 Transformer 论文 Attention Is Al lYou Need。

除此之外,狮子哥也在谷歌参与了不少研究,包括 Prot Trans、Tensor2Tensor 等。

之所以选择离开谷歌,是因为公司目前已经发展到一种规模,使得他无法继续进行自己想做的工作。

除了每天都在浪费精力排查其他人的 bug,他还需要花时间从这家公司中找资源,试图获得访问某些数据的权限。

创业过后,Sakana AI 的工作在有序推进。

去年 8 月,他们首次推出了 AI 科学家(AI Scientist)、AI 审稿人项目。在这之前,还出过大模型合并进化算法,以及研究 Tranformer 内部信息流动。

此次作为 AI Scientist 的延续,依旧由 Sakana AI、UBC、牛津合作完成。

合著者包括 UBC 的 Cong Lu 和 Jeff Clune 以及牛津大学的 Chris Lu 和 Jakob Foerster,两位华人以及他们的导师参与。

Cong Lu,UBC(不列颠哥伦比亚大学)博士后研究员,导师是 Jeff Clune。今年 2 月加入了 DeepMind。

Cong 曾在 RGU(罗伯特戈登大学)就读,2019 年在牛津大学拿下博士学位,他的主要研究方向是开放式强化学习和 AI 科学发现。

此前,他曾在 Waymo 和微软实习过。

Chris Lu,博士毕业前在 Sakana AI 实习了 6 个月。

他本科毕业于 UC 伯克利,博士毕业于牛津大学,导师是 Jakob Foerster。去年 10 月毕业之后,去到了 OpenAI。

Chris 目前的重要研究方向,是将进化启发的技术应用于元学习和多智能体强化学习。

2022 年夏天,他曾在 DeepMind 以研究科学家身份实习过。

虽然这次 AI 科学家已经可以生产出顶会级别的论文了,但这并不是他们的最终目的。

这次是顶级的机器学习会议,下次可能就是顶级科学期刊了。

比如 Nature、Science 啥的。

归根结底,研究团队认为最重要的不是人工智能科学与人类科学的比较,而是它的发现是否有助于人类繁荣,例如治愈疾病或扩展我们对宇宙规律的认识。

你觉得这个时刻什么时候会到来呢?

参考链接:
[1]sakana.ai/ai-scientis...
[2]github.com/SakanaAI/AI...
[3]github.com/SakanaAI/AI...
[4]x.com/SakanaAILab...

欢迎在评论区留下你的想法!

--- ---

相关推荐
掘金安东尼1 分钟前
用亚马逊云Bedrock Guardrails 给 DeepSeek 模型部署加上“护身符”
人工智能
福大大架构师每日一题14 分钟前
transformers v4.51.1正式发布!Llama 4多项关键修复,深度学习玩家速更!
人工智能·深度学习·llama
MILI元宇宙15 分钟前
AI认知重构4.0:GEO战略演进与多平台操作指南
人工智能
lsrsyx20 分钟前
AI数字消费第一股,重构商业版图的新物种
大数据·人工智能·重构
郜太素23 分钟前
决策树+泰坦尼克号生存案例
人工智能·算法·决策树·机器学习·数据挖掘·学习方法
Goboy26 分钟前
老婆问我:"什么是大模型的'对齐优化'?
llm·aigc·ai编程
Goboy27 分钟前
AI 代码助手进入 "对话时代"
llm·aigc·ai编程
itwangyang5201 小时前
AIDD-人工智能药物-pyecharts-gallery
人工智能·python·语言模型·自然语言处理
扎克begod1 小时前
AI大模型进阶系列(03) prompt 工程指南 | 实战核心技术有哪些?
人工智能·prompt
that's boy1 小时前
解锁Midjourney创作潜能:超详细提示词(Prompts)分类指南
人工智能·chatgpt·midjourney·ai绘画·ai写作·gpt-4o·deepseek