HF Papers 直播｜ AI for Science 专场

#AIGC热点大赛# 由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流等 联合发起的【AI Insight Talk】系列直播活动第三场即将开始！

AI 科学家时代正加速到来，但科研智能体真的做好准备了吗？真实科研场景中，多模态智能体能否在推理、规划与执行等关键能力上达到人类科研人员的水平？我们又该如何准确评估它们的科学认知能力和数据分析表现？

本期我们将聚焦 AI for Science，邀请多位在 Hugging Face Daily Papers 中热门论文的作者，共同探讨 AI for Science 能力的真实象限。

📅 直播时间：2025 年 7 月 17 日（周四）19:30 - 21:30（北京时间）

🔗 直播预约地址：hf.link/pzahk

嘉宾阵容 & 分享议题

孙秋实

香港大学博士生，硕士毕业于新加坡国立大学数据科学系。研究方向涵盖 Computer-using Agents 与Code Intelligence，在 ACL、EMNLP、ICLR、COLM 等自然语言处理与机器学习顶级会议发表多篇论文，谷歌学术引用超过 1000 次，担任多个国际会议与期刊的审稿人及程序委员会委员。其关于计算机智能体的系列研究成果被广泛应用于学术研究与工业界实践中。个人主页：qiushisun.github.io/

简要概述

ScienceBoard 是一个用于评估多模态智能体在科学探索任务表现的框架，包含两个核心贡献：真实的可交互环境以及在此基础上构建的评测基准。该环境基于虚拟机，集成了多领域的专业科学软件，支持通过 GUI 和 CLI 进行复杂科研流程的自动化操作。评测基准在此环境中设计了 169 个覆盖生物化学、代数、天文学等六大领域的高质量任务，系统性地测试了智能体在真实科研场景下的推理、规划和执行能力。实验结果表明，即使是最先进模型驱动的智能体，其平均成功率依然远低于人类水平，进一步揭示了当前智能体在科学自动化中的局限，并为未来的科学智能体设计提供了关键启示。

论文地址：huggingface.co/papers/2505...

周宇浩

现为四川大学三年级博士生，本科毕业于四川大学计算科学专业，同时在上海人工智能实验室 AI4S 部门进行学术研究，目前主要研究方向为多模态大语言模型的训练和评测。

简要概述

Scientists' First Exam（SFE）旨在系统评估多模态大模型（MLLMs）在多学科科学领域的能力。SFE 创新性地以"信号感知-属性理解-对比推理"三级体系，涵盖五大领域、66 项任务，采用原始科学数据与中英双语问答。测试发现，主流模型在 SFE 高阶科学任务中表现有限（SOTA 得分仅约 30），凸显了其在科学认知和多模态数据分析方面的不足，为科学 AI 发展指明了突破方向。

论文地址：huggingface.co/papers/2506...

欧翌昕

浙江大学知识引擎实验室三年级硕士生，由陈华钧教授和张宁豫教授指导，此前在浙江大学计算机科学与技术学院获得学士学位。当前研究方向涵盖大模型智能体、大模型可解释性等，在 ACL、NAACL、TASLP 等国际顶级会议和期刊上发表多篇相关研究成果，谷歌学术引用超过 800 次，担任多个国际会议的审稿人。个人主页：oe-heart.github.io/

简要概述

大模型驱动的数据科学智能体有望自动化整个机器学习流程，但其在实际应用中的效果仍然有限。现有的框架依赖于僵化的预定义工作流和不灵活的编码策略，因此仅在相对简单的经典问题上表现出色，未能充分捕捉人类专家在复杂创新任务中的经验。本研究提出了 AutoMind，一个自适应、知识丰富的大模型智能体框架，通过三项关键创新克服了这些不足：（1）一个精心策划的专家知识库，将智能体与领域专家的知识相结合；（2）一种智能体知识树搜索算法，策略性地探索可能的解决方案；（3）一种自适应编码策略，动态调整代码生成策略以适应不同任务的复杂性。评估结果表明，AutoMind 在性能上超越了先前 SOTA，更细致的分析确认了其在质量和效率方面的优势，突显了 AutoMind 在迈向完全自动化数据科学中的高效性和稳健性。

论文地址：huggingface.co/papers/2506...