首个针对生物医药LLM智能体的全流程过程级评测框架

Omics Pro2026-07-05 12:42

摘要

当前大语言模型智能体已可开展实际生物医药研究，但对其开展严谨评测存在较大难度。仅依托最终结果的评测基准存在２大缺陷：

❶ 智能体得出正确答案，可能依靠模型记忆、刷分行为，或是错误推理偶然得到正确结果；

❷ 部分科学有效的差异化分析方案，仅因与参考方案不一致就被判定为错误。

为此，本文提出过程级评测框架BiomniBench，依托领域专家定制的任务专属评分细则，对智能体的完整分析链路进行打分。本框架首发版本为BiomniBench-DA，包含100项数据分析任务，覆盖17类分析任务、5大疾病领域及普通生物学范畴；所有任务均源自Nature/Cell/Science等顶刊论文，由原论文作者或领域专家联合构建。研究基于４类智能体框架，对主流闭源前沿模型与开源模型开展评测，得到３项核心结论：闭源与开源基础模型得分差距较小，所有模型仍存在较大性能提升空间；智能体框架对得分的影响，超过模型代际迭代带来的差距；智能体可规范引用真实文献支撑结论，但在分析方法选择、生物学解读与科学推理方面普遍存在短板。BiomniBench是首个面向生物医药领域大语言模型智能体的过程级评测基准，可实现多维度能力诊断，弥补了结果导向评测的不足。

huggingface.co/datasets/phylobio/BiomniBench-DA

yuanhao@phylo.bio

#大语言模型智能体 #过程级评测 #结果导向评测 #生物医药研究 #评测基准数据集 #数据分析 #评分细则 #智能体框架 #科学推理 #生物学解读

引言

图1 过程级评测与结果导向评测对比

(A) 结果导向评测：仅将智能体最终答案与标准答案进行比对；

(B) 过程级评测：依托专属评分细则，对智能体完整分析链路开展多维度打分，可定位智能体的具体缺陷。评测维度包含数据处理质量、分析方法选取、统计严谨性、生物学解读、科学推理及文献可靠性，并给出综合得分。

BiomniBench-DA：基准设计

专家主导的数据集构建流程

图2 BiomniBench-DA数据集整体概览（共100项任务）

上图：数据集5阶段构建流程，依次为用户行为分析、文献筛选、专家定制任务、参考真值生成、评分细则设计；

左下：任务类型与疾病领域的交叉覆盖矩阵（勾选代表该类别下设有对应任务）；

右下：数据集按疾病领域、分析任务的分布统计。

实验与结果

固定智能体框架下基础大模型性能

表1 基于Terminus-2框架的9款大模型评测结果

表格统计100项任务3轮重复实验的平均得分、单任务标准差、单任务运行时长、调用成本及交互轮次；得分、标准差、运行耗时、成本、交互轮次均为统计均值/中位数。

不同大模型与智能体框架组合性能

表2 多智能体框架 + 大模型组合的交叉评测结果

统计3类框架Claude Code、Codex CLI、Gemini CLI搭配对应大模型的综合得分、稳定性、运行时长、调用成本与交互轮次，统计规则与表1一致。

图3 不同模型-框架组合的成本-性能帕累托分布图

横轴为单任务调用成本（对数坐标，单位：美元），纵轴为评测平均得分；误差棒代表3轮重复实验的标准差；虚线为帕累托前沿，前沿上方的组合在性能与成本上更具优势；本图未纳入Gemini系列组合（无成本数据）。

智能体性能拆解分析

图4 智能体多维度性能拆解分析

(a) 不同模型-框架组合在各类分析任务上的平均得分（按任务难度由高至低排序，仅展示样本≥3的任务类别）；

(b) 6大评测维度下各组合的得分占比，维度包含数据处理、分析方法选择、统计严谨性、生物学解读、科学推理、文献可靠性。

详细总结

思维导图

参考

BiomniBench: Process-level Evaluation of LLM Agents for Real-world Biomedical Research

doi: https://doi.org/10.64898/2026.05.12.724604

260512BiomniBench.pdf

注：AI辅助创作，如有不当欢迎指出。内容仅供参考，不构成任何建议。

上一篇：2026年AI生图工具实测：Midjourney、可灵、即梦谁更强？

下一篇：油封尺寸用卡尺一夹就变形？嘉腾闪测仪不用碰就能测

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 032026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？10【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……