12 年博士研究,AI 两天爆肝完成!科研效率狂飙 3000 倍,惊动学术圈

【新智元导读】AI 两天爆肝 12 年研究,精准吊打人类!多大、哈佛 MIT 等 17 家机构联手放大招,基于 GPT-4.1 和 o3-mini,筛选文献提取数据,效率飙 3000 倍重塑 AI 科研工作流。

多伦多大学、哈佛 MIT 等机构联手 AI,短短 2 天内,竟干完了科学家 12 年的活!

研究一出,在全网掀起了巨震。

沃顿商学院 CS 教授 Ethan Mollick 大受震撼,「AI 综述论文体量越来越大,而准确性超越了人类」。

17 家研究机构同著一篇论文,他们目标直指,借助 GPT-4.1 和 o3-mini 自动化系统综述。

为此,研究人员设计了 otto-SR 平台,并在 2 天内,完成了为期 12 年的系统综述研究。

论文地址:www.medrxiv.org/content/10....

结果显示,otto-SR 在所有任务中,比如筛查灵敏度、提取、筛选特异度方面,能够媲美甚至超越人类。

在一项具体的测试中,复现并更新一期完整的 Cochrane 系统综述,包含了 12 篇为临床指南提供依据的综述。

令人惊叹的是,otto-SR 识别出的相关研究数量(114 篇),是原始综述(64 篇)的 2 倍之多。

这套 AI 工作流,让系统综述速度飙升 3000 倍。

这一速度与传统人工流程相比,堪称革命性突破。

otto-SR 证实了 LLM 能以更高准确率,自主执行复杂的科研任务。未来,有望通过快速、可靠的系统综述,为循证医学带来革命性变革。

人类免疫学家 Derya Unutmaz 教授认为,这是一个非常了不起的成就。

AI 取得如此惊艳的成果,究竟是如何做到的?

AI 全新工作流:

GPT-4.1 筛选,o3-mini 提取

在循证医学领域,系统综述(Systematic Reviews)是科学决策的基石。

一般来说,传统的系统综述的完成,往往需要耗费 16 个月,超 10 万美金的成本。

更重要的是,系统综述的延误,可能导致低效甚至有害疗法长期被使用,对患者来说是一场灾难。

全新 otto-SR 是一套基于大模型的「端到端」创新工作流。

如下图 1 所示,不论是「全自动」,还是「人机协同」,两种综述综述模式均支持。

以下是 otto-SR 的核心模块:

1 文献筛选智能体

GPT-4.1 作为独立评审员,执行摘要和全文筛选。原始检索获得的文献以 RIS 格式上传,系统即可高效处理。

2 数据提取智能体

由 o3-mini-high 执行数据提取任务,快速从文献中提取关键变量。

3 PDF 处理

通过 Gemini 2.0 flash 将 PDF 文件转换为结构化 Markdown 格式,便于后续分析。

摘要 + 全文筛选,赶超人类

在摘要筛选阶段,otto-SR 筛选智能体表现优异。

其加权灵敏度高达 96.6%(区间 94.1-100.0%),显著优于 Elicit(88.5%)和双人评审组(87.3%)。

在特异度方面,双人评审组以 95.7% 位居榜首,otto-SR 筛选智能体(93.9%)紧随其后,优于 Elicit(84.2%)。

这表明 otto-SR 在最大化捕获相关文献(真阳性)的能力上远超传统方法,同时保持了较高的筛选准确性。

在全文筛选阶段,otto-SR 筛选智能体继续保持领先,灵敏度达 96.2%(区间 92.3-100.0%),而双人评审组的灵敏度显著下降至 63.3%。

在特异度方面,otto-SR(96.9%)与双人评审组(98.1%)均表现优异,而 Elicit 因不支持全文筛选未参与比较。

综合表明,otto-SR 在保持高特异度(最小化误纳)的同时,能够捕获更多相关研究(真阳性),相较于传统双人评审和商 Elicit 展现了显著优势。

数据提取,刷爆准确率

在七项系统综述中,otto-SR 数据提取智能体的平均加权准确率高达 93.1%(区间 91.1-97.0%),显著优于双人评审组(79.7%[69.1-91.0%])和 Elicit(74.8%[58.8-83.1%])。

在 otto-SR 提取智能体的 6.9% 误差案例中,事后分析揭示了主要原因:

· 0.83%(39/4459)因模型无法获取补充文件或需申请的数据;

· 0.67%(30/4459)源于解析错误;

· 0.49%(22/4459)属于 otto-SR 与原作者均不准确的情况。

这些发现为未来的优化提供了明确方向,例如改进对补充文件的处理能力和解析准确性。

短短 2 天,AI 爆肝 12 年工作

既然 GPT-4.1+o3-mini 在性能评估中刷新 SOTA,那么在实际挑战任务中,表现又如何呢?

为了验证实用价值,作者对「Cochrane 系统综述数据库」的 12 篇系统综述,共 146,276 篇文献,进行了复现与更新测试。

otto-SR 智能工作流

otto-SR 聚焦每篇综述的主要结局(Primary Outcome),让入选标准更清晰。

筛选智能体准确识别了全部 64 项纳入研究;数据提取智能体按 Cochrane 原始变量定义提取主要结局数据,程序化剔除了缺失主要结局值、重复研究或无干预 - 对照组的记录。

结果显示,otto-SR 错误排除研究的中位数为 0 篇(IQR 0-0.25)。

值得一提的是,在限定原始检索截止日期的分析中,otto-SR 意外发现了 54 篇可能被原综述遗漏的合格研究。

人工复核确认其中 10 篇为假阳性,但 9 篇可能通过作者沟通获取相关数据。

进一步更新检索至 2025 年 5 月 8 日,otto-SR 又发现了 14 篇新合格研究,其中仅 2 篇假阳性,1 篇可能含相关数据。

另外,在营养学综述中,otto-SR 发现了 5 项新增研究。这一发现展示了 otto-SR 挖掘新证据、优化结论的能力。

作者介绍

Christian Cao

Christian Cao 目前是多伦多大学医学院在读博士。

目前其研究方向聚焦于开发人工智能模型,致力于预测可避免的住院事件及糖尿病相关并发症。

Rohit Arora

Rohit Arora 目前是哈佛大学生物信息学一年级博士生。

他专注于人工智能在科学研究中的应用,研究方向集中于药物发现与蛋白质设计。

参考资料:

x.com/emollick/st...

www.medrxiv.org/content/10....

www.reddit.com/r/singulari...

x.com/ChristianCa...

相关推荐
rocksun2 小时前
认识Embabel:一个使用Java构建AI Agent的框架
java·人工智能
Java中文社群3 小时前
AI实战:一键生成数字人视频!
java·人工智能·后端
AI大模型技术社4 小时前
🔧 PyTorch高阶开发工具箱:自定义模块+损失函数+部署流水线完整实现
人工智能·pytorch
LLM大模型4 小时前
LangChain篇-基于SQL实现数据分析问答
人工智能·程序员·llm
LLM大模型4 小时前
LangChain篇-整合维基百科实现网页问答
人工智能·程序员·llm
DeepSeek忠实粉丝4 小时前
微调篇--基于GPT定制化微调训练
人工智能·程序员·llm
聚客AI5 小时前
💡 图解Transformer生命周期:训练、自回归生成与Beam Search的视觉化解析
人工智能·llm·掘金·日新计划
用户4307994547675 小时前
保姆级教程教你用ai实现labubu自由
openai
神经星星5 小时前
从石英到铁电材料,哈佛大学提出等变机器学习框架,加速材料大规模电场模拟
人工智能·深度学习·机器学习
摆烂工程师6 小时前
Google One AI Pro 的教育学生优惠即将在六月底结束了!教你如何认证Gemini学生优惠!
前端·人工智能·后端