随着以DeepSeek-R1为代表的大语言模型步入"深度思考"的新范式,人工智能在自然科学领域的探索正从表层信息检索迈向深层的复杂逻辑推理。然而,一个关键问题随之凸显:我们如何科学、精准地评估这些模型在专业科学领域,尤其是化学这门充满抽象概念与多步推演学科中的真实"理解力"?近日,北京大学跨学科团队发布的化学大模型基准SUPERChem,如同一把精心锻造的"尺规",不仅系统测量了当前顶尖模型的化学推理高度,更深刻揭示了其与人类专业认知之间尚存的沟壑,为AI赋能科学研究的下一阶段指明了方向。
填补空白:从知识回忆到思维链评估的范式革新
长期以来,针对大模型的科学能力评测多集中于通用领域或基础性化学信息学任务,题目往往偏向事实性知识考察,难以触及化学思维的核心------即综合运用原理、在具体情境中进行多步骤、有时甚至是跳跃性或创造性的推理能力。化学,从中学教育到奥赛竞技,再到高等研究,其魅力与难度正在于此。SUPERChem的诞生,直指这一评估体系的短板。
它的构建过程本身,就体现了对"高质量推理"的极致追求。依托北京大学化学学院顶尖的师生资源,近百名具有扎实功底和丰富解题、命题经验的参与者,共同完成了题目的原创编写、专业解析与严格的三阶段审核。题目源自分非公开的专业试题和前沿文献改编,并采用了巧妙的防泄漏设计,有效杜绝了模型通过"刷题"记忆或从选项反推答案的可能性,迫使其必须启动真正的推理引擎。
更值得称道的是,SUPERChem首次在化学基准中系统引入了推理路径一致性(RPF) 指标。研究团队为每道题目撰写了包含关键逻辑检查点的标准解析,通过自动化方法评估模型输出的"思维链"与专家解析的一致性。这意味着,仅仅答案正确并不够,模型必须展示出符合化学逻辑的思考过程,才能获得高分。这一设计,将评估从"结果导向"推向"过程导向",是判断模型是否真正"理解"而非"拟合"化学的关键一跃。
评测结果:前沿模型的"本科生水平"与推理路径的分化
SUPERChem的评测结果既令人鼓舞,又发人深省。在难度设置上,该基准成功模拟了高阶化学推理的挑战性:北京大学化学专业低年级本科生的闭卷测试准确率仅为40.3%。而参与评测的全球顶尖模型中,表现最佳的GPT-5 (High)准确率为38.5%。这一数据清晰地标定了当前最强AI在化学深度推理上的位置:接近但尚未超越化学专业低年级学生的平均水平。这无疑是一个里程碑,表明AI已能处理相当复杂的专业问题;但同时也是一记警钟,说明在需要深度融合知识与情境的创造性推理层面,AI距离成熟专家乃至优秀高年级学生仍有漫长征途。
RPF指标进一步揭开了模型推理过程的"黑箱",呈现出有趣的分化。像Gemini-2.5-Pro和GPT-5 (High)这类模型,在取得较高准确率的同时,其推理逻辑也与专家路径更为契合。而另一些准确率相近的模型,如DeepSeek-V3.1-Think,则显示出较低的RPF得分,表明其更倾向于依赖启发式、捷径式的路径得出结论。这种分化提示我们,"答对"的方式本身,可能蕴含着模型鲁棒性、可解释性与泛化能力的重大差异。一个能清晰复现化学逻辑链的模型,可能在面对全新、更复杂问题时,比一个依赖统计模式"猜对"的模型拥有更强的适应能力。
多模态的双刃剑与高阶推理的"断点"
化学是一门高度依赖符号、图形与空间想象的学科。SUPERChem同步提供图文交错与纯文本版本的设计,敏锐地捕捉到了多模态信息对推理的影响。研究发现,视觉信息的作用是一把"双刃剑":对于Gemini-2.5-Pro等强推理模型,图像输入能提供关键的结构信息,从而提升表现;而对于某些推理能力较弱的模型,复杂的图像信息反而可能造成干扰或误导。这为未来科学AI的应用提出了一个精细化的课题:需要根据模型的具体能力架构,动态匹配合适的信息输入模态,而非简单地将多模态视为万能增益。
通过细致的推理断点分析,研究团队精准定位了当前模型最常"跌倒"之处:产物结构预测、反应机理的逐步识别、微观结构与宏观性质之间的构效关系分析等。这些恰恰是化学研究中最高阶、最核心的推理环节,要求对化学键、空间位阻、电子效应等有深刻且灵活的理解。模型在这些环节的集中失败表明,尽管它们吸收了海量文本和化学数据,但在构建类似于化学家的内部心智模型------一种能够进行动态模拟和原理性推演的认知框架------方面,仍然存在根本性短板。
启示与展望:通向真正"化学智能"的道路
SUPERChem基准的发布,其意义远超一次简单的模型排名。它首先为整个领域树立了一个严谨、高难度、注重过程的评估新标准,将推动研究从盲目追求参数规模和简单任务性能,转向聚焦于模型的内在推理质量与学科深层理解。
其次,它提供的详尽诊断------无论是RPF分析、多模态影响研究还是推理断点定位------都为模型的迭代优化提供了前所未有的清晰路线图。开发者可以据此有针对性地强化模型在机理推断、结构预测等薄弱环节的训练,例如引入更强大的符号推理模块、三维分子建模能力或基于第一性原理的计算辅助。
更深层次看,SUPERChem揭示了当前以大语言模型为代表的AI在迈向"科学智能"道路上必须跨越的鸿沟:如何将海量知识真正内化为可操控、可组合、可溯源的因果模型,而不仅仅是概率关联的集合。化学,以其严谨的底层逻辑与无限的现象组合,成为了检验这一目标的绝佳试金石。
总之,北大SUPERChem基准的推出,标志着一个更成熟、更深入的AI科学评估时代的开启。它告诉我们,最前沿的AI已站在了专业化学殿堂的门槛上,但门后那片需要深刻原理性理解、创造性思维与严谨逻辑推演的广阔天地,依然等待着它们去真正征服。这条从"接近本科生"到"媲美专家"的进阶之路,正是下一代人工智能突破的关键方向,也是人类与机器智力在探索自然奥秘中协同共进的新篇章。