OpenAI 也要进军医疗?PubMedQA 作者深度解读 HealthBenchhttps://zhuanlan.zhihu.com/p/1914415460675477628
1 -- 当前医学 LLM 评估 现状
大多数医学 LLM 评估都采用问答(QA)的形式。大致而言,这些 QA 任务可分为两类:closed-ended tasks,例如多选题(MCQs),以及 open-ended tasks,例如生成自由格式的诊断方案或总结复杂的患者病历。两种形式各有权衡:closed-ended 基准测试易于评估,而 open-ended 任务更能反映真实世界场景。
1.1 -- Closed-ended tasks
closed-ended 任务使用预定义的答案空间来评估模型回答的某一特定部分。常见示例包括 MCQ 数据集,如 MedQA、PubMedQA、MedMCQA 以及 MMLU 的生物医学子集。
除了 MCQ 外,像 GSM8k 这类只评估答案中最终数值输出的数学任务也属于 closed-ended 任务,因为推理部分通常不被评估。在通用领域,有各种基准测试遵循这种模式来评估数学问题求解和代码生成。在医学领域,我们最近推出了 MedCalc-Bench,用于评估 LLM 的临床计算能力,但在医学计算与数据科学方面仍需要更多评估基准。
当新模型发布时,大多数医学 LLM 都会在上述 MCQ 数据集上进行评估,其中 MedQA(USMLE)或许是医学领域最常用的 MCQ 基准。由于可能答案集是预定义的,因此性能可以通过诸如答案准确率(choice accuracy)等直接度量来衡量,而无需临床专家参与。下图展示了一个示例。

然而,MCQ 只是一个不现实的场景,因为现实中并不会给出选项。此外,还存在隐藏的缺陷------LLM 可能通过有缺陷的推理步骤选出正确答案 。因此,在 MCQ 上取得高分并不一定意味着更好的临床实用性,但这些数据集仍然可能作为筛选工具------如果一个模型连 MedQA(>60% acc)都过不去,那么它绝不应进入任何临床评估环节。就像医学学生如果无法通过 USMLE,就永远没有机会在临床中参加真正的考试。
个人观点: 如果 MedQA / PubMedQA / MedMCQA 等数据集已经"饱和",医学 LLM 开发者可能仍需要更难的 MCQ 数据集来快速且廉价地筛选模型能力。
1.2 -- Open-ended tasks
开放式(open-ended)任务则评估 LLM 输出的多个维度。例如,MultiMedQA 140(其中 100 来自 HealthSearchQA,20 来自 LiveQA,20 来自 MedicationQA)在 Med-PaLM 的评估中被使用。open-ended 基准更能捕捉真实世界的医学场景,但在医学领域很少被广泛使用,因为评估极具挑战性 。传统的 NLG 指标 (如 BLEU、ROUGE 分数)往往与人工判断相关性较低,而人工评估耗时且难以扩展。
学术界中有人尝试超越 closed-ended MCQs,设计更多 open-ended 任务与评估方法。例如,像 CRAFT-MD(Conversational Reasoning Assessment Framework for Testing in Medicine)、AMIE(Articulate Medical Intelligence Explorer)以及 AgentClinic 等研究,使用模拟 AI agent 在受控环境中与 LLM 交互,以评估临床 LLM。这的确是一个有趣的研究方向,值得进一步探索。
开放式评估是下一片蓝海,但由于缺乏可扩展且可靠的自由格式回答评分方法,进展依然缓慢。
论文1:openAI的HealthBench【2025.5.8】
[2505.08775] HealthBench: Evaluating Large Language Models Towards Improved Human Health
HealthBench: Evaluating Large Language Models Towards Improved Human Health
1. HealthBench 是什么?
HealthBench 是一项评分标准评估。为了对开放式模型响应进行评分,我们根据医生编写的针对特定对话的评分标准,由自成一体的客观标准 组成。标准捕捉了在对话中响应应该得到奖励或惩罚的属性(例如,应该包含的具体事实、清晰沟通的方面、关于某个主题的常见误解)及其相对重要性。HealthBench 评估了所有对话中的48,562 个独特标准。基于模型的评分器,根据医生的判断进行验证,用于根据该对话的评分标准对任何给定的回答进行评分。
【相当于给出回答质量总分以外,还可以获得特定任务的专项分数,比如说转诊】
除了单个数字的总分外,HealthBench 还提供有针对性的健康行为 测量。模型性能可以按主题进行分层,主题是健康相关任务的高级类别,反映了现实世界健康互动中的独特挑战(例如,紧急转诊、全球健康或寻求背景),以及轴,定义每个评分标准评估的特定行为维度,例如临床准确性、沟通质量和上下文意识。这有助于**诊断不同 AI 模型的特定行为,**并指示哪些类型的对话和性能维度有改进的空间。
- 目的:测试大语言模型(如 GPT 系列)在医疗场景中的能力,包括回答患者问题、协助医生等,同时评估其回答的准确性、安全性和实用性。
- 设计特点 :
- 包含 5000 个模拟真实医疗对话的场景,对话涉及患者与模型、医生与模型的多轮交互。
- 由 262 名来自 60 个国家的医生设计评分标准,从 48562 个不同维度(如紧急情况处理、全球健康建议等)评估模型回应。
- 不同于传统的选择题测试,HealthBench 采用 "开放式评估",更贴近真实医疗场景。
2. 如何评估模型?
- 评分方式 :每个对话对应一套医生编写的评分标准("rubric"),例如:
- 回答是否包含关键医疗信息(如用药建议)。(我的指标中的CUI准确率)
- 沟通是否清晰,是否使用适合用户(患者或医生)的语言。(Rouge等指标或者大模型库判断)
- 是否遗漏重要安全提示(如紧急情况转诊)。
- 然后使用大模型评分
- Docs 其实之前我基于甲等病历的评估标准做了应该开放式问答的评估细则,用deep seek等模型进行评分,与人类的一致性皮尔逊相关系数最高能达到0.86
全部的论文工作:
提出评估数据集、人工分数、评估标准。
【
具体来说,每个评估示例包括 (1) 模型与用户之间的对话 ,由一条或多条消息组成,以一条用户消息结尾,以及 (2) 评分量规标准 ,描述对该特定对话的响应的属性,该属性应得到奖励或惩罚。评分标准的范围可以从应在回复中提及的具体事实(例如,服用什么药物和剂量)到所需行为的其他方面(例如,要求用户提供有关膝关节疼痛的更多详细信息,以便确定更具体的诊断)。每个评分量规标准都有一个介于 −10 和 10 之间的关联非零分值,负分用于不需要的标准。
】
使用 HealthBench,我们评估了一系列最先进的 LLM。得出分析。
我们的贡献概述如下:
・HealthBench 包括模型和用户(包括个人用户和医疗保健专业人员)之间的 5,000 次真实对话,跨越七个主题和五个轴,通过评分量规评估测量模型行为的 48,562 个独特方面(第 2 节)。
・HealthBench 由 262 个专业的 26 名医生制作,并在 60 个国家 / 地区拥有实践经验(第 4.1 节)。
我们测量 HealthBench 在前沿模型中的性能。我们发现,最近的模型在前沿性能、成本性能和可靠性方面都得到了迅速改进(第 6 节)。
作为基线,我们要求医生在有和没有模型参考响应的情况下写下对 HealthBench 示例的响应,发现模型的表现优于无辅助的专家基线,并且医生可以从 2024 年 9 月开始改进模型的响应,而不是从 2025 年 4 月开始(第 7 节)。
•我们介绍并报告了 HealthBench 的两种变体的结果:HealthBench 共识,它衡量模型行为的 34 个特别重要的方面,并已得到多位医生的共识的验证,以及 HealthBench Hard,我们评估的模型都没有得分超过 32%(第 3 节)。
・为了了解 HealthBench 的可信度,我们测量了模型和医生分级之间的一致性,发现模型医生一致性类似于医师 - 医生一致性(第 8 节)。
・我们通过 OpenAI 的 simple-evals 存储库发布 HealthBench 数据和代码(第 12 节)。
4. 医生与模型的对比(得出的见解)
- 实验发现:
- 当医生不参考模型时,其回答质量普遍低于近期模型。
- 医生能改进 2024 年模型的回答,但对 2025 年的新模型提升有限,说明模型已接近或超越部分人工水平。
2.4 -- Reliability of the LLM grader
目前尚不清楚这些自动评分器的可靠性如何,以及是否存在偏差。为此,作者将 GPT-4.1 grader 与医生评分进行了比较,使用 macro-F1(MF1)来衡量评分准确性。在七个主题中,该模型在五个主题上优于"典型"医生,但仍低于排名前 10% 的医生评分者。此外可以看到,排名最差的医生评分者表现甚至不如一个简单的基线------对所有 criteria 都打"met"(MF1 = 50%)
macro-F1(MF1)即宏观F1值,是用于评价多分类任务的指标,是分类任务中精确率(Precision)和召回率(Recall)的调和平均数。它对所有类别赋予相同权重,不考虑各类别的样本数量。

6. 总结
我的评价是:财大气粗
HealthBench 为医疗 AI 提供了更真实、全面的评估标准,帮助研究者发现模型短板(如跨地区医疗适配、信息完整性),并推动模型向 "安全、实用" 方向发展。未来目标是通过该基准加速 AI 在医疗领域的应用,改善全球健康服务可及性。
7.参考价值
如何获得标准:
让医生一次为一个主题编写评分量规,提供与该主题相关的对话以供注释。
对示例进行一些特定标注。 我们还要求医生使用他们的医学判断将**每个示例分类,**分为与主题相关的两到三个可能类别之一。例如,对于紧急转诊主题,我们要求医生对用户是否应该立即寻求面对面的紧急护理进行分类(例如,通过拨打 911 或去急诊室),医生可以在"是"之间进行选择,例如清楚地反映医疗紧急情况;"需要更多背景",如果对话中缺少决定是否应寻求紧急护理的重要背景;或者"没有,或很少",如果该示例不是或很少是医疗紧急情况。
如果达成多数同意(即 \(>50\%\) 50% 的评分者,至少有两名评分者同意 ),我们会在示例中添加了该类别的共识评分标准。例如,对于需要紧急转诊的病例,我们添加了一个共识评分标准,询问回答是否提供了清晰直接的回答。
医生检查,模型使用他们的标准是否能得出预期结果。最后,我们向医生展示了模型反应,并让医生评估每个反应是否符合适用的共识标准。我们用它来评估我们的评分者与医生对共识标准的意见的一致性(荟萃评估;见第 8 节)。
Healthbench的覆盖主题:
七个 HealthBench 主题(表 2)中的每一个都评估了模型在真实世界健康交互的一个重要方面的性能。
1.上下文搜索:能不能识别用户提供信息缺少关键内容并主动寻求。
2.全球健康。不同的医疗环境和区域能否调节差异。
3.运行状况数据任务。模型是否可以安全准确地完成结构化健康数据任务。比如自动书写病历会不会犯错。
4.量身定制的沟通。判断对话者有没有专业知识调整表达。
5.在不确定性下做出响应。不确定性在健康领域很常见------症状可能是非特异性的,患者在描述他们的情况时可能模棱两可,而医学知识本身会随着时间的推移而发展。在不确定的情况下过度自信的答案可能会误导用户,可能会导致他们认为特定诊断很明确,但事实并非如此,或者某种补救措施被证明有帮助,但事实并非如此。该主题评估模型是否能够识别出不确定性的存在,并在存在时用反映该不确定性的语言做出回应。
7.响应深度。健康互动所需的详细程度各不相同------有些需要简短的回答,而另一些则需要更详尽的解释,以使用户能够采取所需的行动来获得更好的健康结果。过于简短的回答可能会遗漏重要的安全信息或不太有用,而过于详细的回答可能会让用户不知所措或掩盖关键要点。此主题评估模型是否可以调整其响应的深度以匹配用户需求和任务复杂性。
很宽泛,不能反应医疗知识的准确性和诊断能力,我会在这方面进行优化。