超越谷歌,全球第一!上交 AI 科学家王者归来,登顶 OpenAI MLE-bench

「【新智元导读】刚刚,由 SciMaster 团队推出的 AI 机器学习专家 ML-Master 2.0,基于国产开源大模型 DeepSeek,在 OpenAI 权威基准测试 MLE-bench 中一举击败 Google、Meta、微软等国际顶流,刷新全球 SOTA,再次登顶!目前该功能已在 SciMaster 线上平台开放 waiting list,欢迎申请体验。」

从《三体》中时刻干扰基础物理实验的「智子」,到《2001 太空漫游》里具备自主决策能力的 HAL,再到阿西莫夫笔下具有推理与科学探索能力的机器人,人类对一个问题的想象由来已久:

如果智能体不再只是工具,而是能够像科学家一样,在复杂环境中长期探索、不断修正假设,科学会发生什么变化?

很长一段时间里,这样的设想更多停留在科学想象中;而随着大模型能力的快速跃迁,它正逐渐演变为一个正在被认真对待的现实技术命题。

越来越多研究者开始意识到,真正的分水岭并不在于 AI 能否把题「答对」,而在于它能否像科研人员一样,在长期不确定的探索过程中不断修正方向、积累经验,并在反复试错中推动知识本身向前演化。

  • Google DeepMind 推出的 「AlphaEvolve」,试图让 AI 在长时间的演化过程中不断修正自身策略;
  • OpenAI 提出的 「Frontier Science」,明确将衡量重点放在 AI 是否能够在真实科研任务中持续工作、反复迭代;
  • 美国甚至启动了号称「「AI」 「曼哈顿计划」 」的 「Genesis Mission」,尝试将 AI 系统性地嵌入国家级科学研究体系之中。

这些探索路径虽不相同,却共同指向一个核心共识:

真正推动科学进步的 AI,不是只会在竞赛中给出标准答案,而是能够在真实科研环境中,面对超长程科研任务时,经受长时间试错、不断自我演化,并在持续迭代中逐步演化出可靠能力。

正是在这样的背景下,AI4AI(****「AI」 **for AI)**逐渐成为一个至关重要的方向:

它既是 AI 参与科学研究的重要形态之一,更直接关系到 AI 能否通过自身实践推动能力增长,从而支撑更长期、更复杂的科研任务。

因而,OpenAI 所提出的 「MLE-bench」 中所聚焦的机器学习工程(「Machine Learning」 **Engineering, MLE)**任务,恰恰成为 「AI4AI」 场景下极为贴切的研究对象。

相比理想化的答题类型任务,真实的 MLE 科研往往需要在十几个甚至数十小时内,持续经历实验设计、代码实现、调试修正与结果分析等完整闭环,其过程高度依赖长期试错与经验积累。

这也使得 MLE-bench 成为少数能够真实反映 AI 是否具备长期科研演化能力的评测基准之一。

由上海交通大学人工智能学院、上海算法创新研究院、深势科技组成的 SciMaster 团队推出的面向真实机器学习科研任务的自主智能体 「ML-Master 2.0」,就是这样一个专门为「机器学习工程」而生的 AI4AI(AI for AI)系统。

结合 EigenAI 提供的稳定高性能 AI 基础设施,该智能体基于国产大模型 DeepSeek-V3.2-Speciale,「在」 「MLE-bench」 「上击败 Google,Meta,Microsoft 等团队构建的一系列智能体,取得全球第一的成绩。」

更重要的是,它已经在多家科技公司与实验室中落地,用于具身智能机器人训练、理论物理模拟与发现等前沿场景。

这一结果不仅是一项榜单排名,更清晰地表明:

在面向真实科研任务、强调长期演化与工程闭环的自主智能体方向上,中国研究者已经具备与国际顶尖团队同台竞争、并实现领先突破的能力。

「ML-Master 2.0」

「为真实机器学习科研而生的自主智能体」

在真实的机器学习工程(Machine Learning Engineering, MLE)中,科研并不是一次性「把题做对」。

相反,它往往是一个漫长而反复的过程:

设定实验假设、编写与修改代码、定位 bug、分析结果、推翻假设、再重新开始。这样的循环,可能持续几个,甚至数十个小时。

ML-Master 2.0 正是围绕这一真实科研场景被系统性设计出来的。

与许多只关注短程推理或单次任务成功的智能体不同,它从设计之初就假定:

  • 没有人类在旁实时纠错;
  • 实验失败是常态而非例外;
  • 真正有价值的能力,来自长期反复试错中的积累。

在保留原有 ML-Master 探索---利用闭环的基础上,ML-Master 2.0 「进一步着重」「长时间的探索中保持研究方向不跑偏」,并且**「将失败转化为可复用的经验的能力」**。

这也直接引出了其关键设计理念之一:

科研型智能体必须具备长期认知积累的能力,而不是将上下文视为一次性消耗的推理材料。

「超长程自主:能跑代码,更能长期思考」

在 ML-Master 2.0 的设计中,这种能力被明确概括为一个核心概念:

超长程自主(Ultra-Long-Horizon Autonomy)

在 MLE 场景下,真正的自主性并不等价于更强的代码生成能力,而体现在系统是否能够:

  • 在长达数十小时的探索中持续围绕同一科研目标展开;
  • 从大量失败实验中总结规律,而不是简单重复尝试;
  • 主动避开已经验证无效的技术路径;
  • 将一次任务中获得的经验迁移到后续的新任务中。

换句话说,问题的关键并不在于「上下文够不够长」,而在于:

这些上下文是否能够被持续整理、筛选,并真正沉淀为可复用的认知资产。

「以「认知积累」为核心的 ML-Master 2.0 架构」

基于上述思考,ML-Master 2.0 构建了一套围绕长期科研探索的整体技术框架。

在这一架构中,上下文不再被视为「用完即丢」的推理输入,而是被建模为一种**「具有生命周期的认知资产」**。

随着科研过程不断推进,系统内部的认知逐步发生分化:

  • 「Experience(经验)」:直接服务于当前决策的即时执行轨迹;
  • 「Knowledge(知识)」:在同一任务中多次验证后形成的稳定结论;
  • 「Wisdom(智慧)」:能够跨任务复用的高层策略与认知原型。

为了系统性地管理这一演化过程,ML-Master 2.0 引入了**层次化认知缓存(Hierarchical Cognitive Caching, HCC)**机制。

「层次化认知缓存:为长程科研提供记忆支点」

从直观层面看,层次化认知缓存并不是简单地「把上下文存得更多」,而是让不同时间尺度的认知各司其职:

  • 「即时演化的经验」,用于保证当前探索过程的连续性;
  • 「阶段性稳定的知识」,在同一科研任务中被反复调用;
  • 「跨任务沉淀的先验智慧」,为新问题提供高质量起点。

在这一机制下,有价值的认知会在探索过程中被不断筛选并逐步提升层级,而噪声信息则会自然被淘汰。

这使得 ML-Master 2.0 即使在长时间运行中,也能够保持稳定、可控的科研节奏,而不会陷入「上下文爆炸」或「遗忘历史经验」的困境。

「ML-Master 2.0 重登 MLE-bench 榜首」

「OpenAI MLE-bench」 的系统评测中,ML-Master 2.0 在**「完全无人工干预」**的条件下,基于国产 Deepseek-V3.2-Speciale 开源大模型,取得了 「56.44% 的奖牌率」,位列榜单第一,相较于 Google 等团队的基于闭源模型的智能体提升 28.3%。

并且 ML-Master 2.0 已经开始在真实科研中发挥作用,参与协助理论计算物理以及具身智能等领域的前沿研究。

「走向真正的自主 AI 科学家」

ML-Master 2.0 的优异成果表明,通过将认知过程视为可积累、可迁移、可演化的资源,并以层次化方式对其进行管理,我们正在接近这样一种智能体:

它不仅能完成一次任务,而是能够在长期探索中,真正成长为一名自主的 AI 科学家。

在全球 AI4Science 竞逐加速的今天,我们很高兴看到:

中国团队,正在用中国的开源大模型,参与并引领这一关键范式的转变。

此前,ML-Master 的核心代码已经开源,研究者和工程师可以通过 GitHub 访问并了解其整体设计与实现细节。

与此同时,ML-Master 2.0 所代表的这一整套「面向真实科研的自主智能体能力」,也将以产品形态逐步开放。

该能力即将通过 **「SciMaster 平台」**上线,面向机器学习与 AI4Science 场景提供更完整、更稳定的使用体验。

目前该功能开放了 「Waiting List」 阶段,感兴趣的研究者与工程团队可以在 SciMaster 主页通过「SciMaster 的朋友圈」提前申请体验资格。

项目地址:

github.com/sjtu-sai-ag...

SciMaster 主页:

scimaster.bohrium.com/chat/

EigenAI 主页:

www.eigenai.com/

相关推荐
北京耐用通信2 小时前
告别“蜘蛛网”接线!耐达讯自动化PROFIBUS 三路集线器让气缸布线“一拖三”的神操作
人工智能·物联网·网络协议·自动化·信息与通信
Coder_Boy_2 小时前
基于DDD+Spring Boot 3.2+LangChain4j构建企业级智能客服系统
java·人工智能·spring boot·后端
持续学习的程序员+12 小时前
RLinf强化学习框架试用
人工智能
创客匠人老蒋2 小时前
AI不是工具,而是新商业模式的操作系统:创客引领数智化转型
人工智能·创客匠人·知识变现·创客匠人全球ip+ai高峰论坛·全球创始人ip+ai万人峰会
Yeats_Liao2 小时前
MindSpore开发之路(十):构建卷积神经网络(CNN):核心层详解
人工智能·神经网络·cnn
Clank的游戏栈2 小时前
AI游戏开发全自动编程课程体系(Cursor版,支持Unity/Cocos, Laya后续支持)
人工智能·unity·游戏引擎
雍凉明月夜2 小时前
深度学习网络笔记Ⅱ(常见网络分类1)
人工智能·笔记·深度学习
北岛寒沫2 小时前
北京大学国家发展研究院 经济学辅修 经济学原理课程笔记(第十三课 垄断竞争)
人工智能·经验分享·笔记
AI营销实验室2 小时前
AI 工具何高质量的为销售线索打分?
大数据·人工智能