
MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs
摘要
字节跳动小荷医学AI团队推出MedXIAOHE,一款医学视觉-语言基础模型,在30+医学基准测试中达到业界领先水平,超越多个闭源系统。该模型集成了实体感知持续预训练、多步诊断推理和证据驱动报告生成等创新能力,为真实临床应用提供了可靠的多模态医学理解和推理能力。
阅读原文或https://t.zsxq.com/qTWcc获取原文pdf
正文
导语:医疗AI的"工业级"升级
医学决策从来都是多模态的。患者症状、病史、体检、放射影像、病理图像和临床报告,这些不同形式的信息必须整合在一起,才能做出准确的诊断。然而,构建一个真正适用于现实临床工作流的医学基础模型仍然充满挑战。
近日,字节跳动XiaoHe医学AI团队发布了MedXIAOHE,这是一个经过精心设计的医学视觉-语言基础模型。与其他模型不同的是,MedXIAOHE不仅追求基准测试的数字优化,更关注临床可用性、可靠性和鲁棒性------这些往往决定模型能否真正走进医院、服务医生。

三大核心创新
1. 实体感知的持续预训练框架
传统的预训练方法往往面临一个棘手的问题:长尾知识覆盖不足。罕见病、不典型表现、复杂并发症等医学"长尾"场景中,模型常常给出自信但错误的答案。
MedXIAOHE采用了创新的实体感知、多模态原生分辨率持续预训练策略。这个方法的妙处在于,它围绕一个以实体为中心的分类法来组织异质的医学语料库,从而扩大医学知识覆盖范围,提高模型在不同专科和模态下的鲁棒性。换句话说,模型学习时不仅看数据量,还要看数据的"组织逻辑"。
2. 证据驱动的报告生成管道
长期以来,医学AI的一个"痛点"就是幻觉问题------模型生成的报告可能包含细微的曲解或过度解读,这在医学领域可能带来严重后果。
MedXIAOHE建立了一个多阶段的证据驱动报告生成管道,包括:
-
多阶段草稿生成
-
医学实体提取与检索
-
批评与改写循环
-
基于医学指标的生成奖励模型训练
这个设计像是给模型安装了一个"医学审稿官",确保每一句临床描述都有证据支撑,从而有效抑制了细微幻觉和过度诠释。

3. 工具增强的多步诊断推理
真实的临床工作流是交互式的。医生不是简单地回答问题,而是需要收集缺失信息、咨询参考资料、验证中间假设。
MedXIAOHE通过强化学习和工具增强的智能体训练,支持具有可验证决策痕迹的多步诊断推理。这意味着模型不仅给出诊断结论,还能展示推理过程,让医生能够理解和验证每一步的逻辑。
全方位的能力释放
MedXIAOHE的性能涵盖多个关键医学能力维度:
-
视觉诊断与图像识别
:在院内和公开评估中表现一致强劲,超越SOTA模型在院内VQA/Caption/OCR以及MMMU医学系列测试中的表现
-
医学影像
:在SLAKE、PATH_VQA、OmniMedVQA等异质放射学/病理VQA任务上表现出明显优势
-
诊断推理
:在RareBench和MedBrowseComp上表现竞争力强劲,在复杂和罕见病诊断中展现稳健的医学决策能力
-
医学文本
:在PubMedQA、MedQA、CMExam等多个医学QA基准上展示扎实的临床知识和推理能力
-
医学报告生成
:在MIMIC-CXR和CheXpert Plus上表现良好,表明可靠的放射学报告生成和临床发现覆盖能力
-
指令遵循
:在多约束和医学导向的指令基准上效果显著,支持其在指令驱动医学应用中的实用性

统一的评估框架:连接基准与临床
医学AI的一个长期痛点是评估的零散性。不同研究使用不同的提示词、评分方法和污染控制标准,导致结果难以重现和比较。
MedXIAOHE提出了一个统一的医学VLM基准框架,整合了30+个公开基准,采用统一的协议、提示词和去污染方法,实现了可重现的测量和更有意义的跨模型比较。同时,团队还补充了针对临床上重要但被低估的能力的院内评估。
特别值得一提的是,团队开发了一个院内字幕基准,基于真实临床图像,聚焦于病灶和其他视觉标记的发现。每张图像都由两名持证医生独立审查和论证,确保了评估的医学可信度。
从基准到诊所:可靠性的追求
与追求基准分数不同,MedXIAOHE的设计哲学更深层:如何让AI真正在临床中可用。
模型的设计特点包括:
-
用户偏好对齐
:通过医学指标训练,确保输出符合临床实践偏好
-
证据接地
:每个推理步骤都有据可查,增强可信度
-
低幻觉报告
:多阶段批判与改写流程确保生成内容的准确性
-
医学指令遵循
:增强对医学指令的理解和执行能力

为什么这很重要
医学AI的成功标准不仅仅是基准数据,更是临床实际应用。MedXIAOHE的这些设计选择反映了对医学领域特殊性的深刻理解:
医学输入是异质的------成像协议因机构而异,视觉检查图像在非控制条件下捕获,报告可能包含细微细节,遗漏或扭曲会改变临床意义。医学任务要求不仅精度高,还要有纪律性的证据使用、跨不同环境的稳定行为和可靠的长文本生成。

展望与承诺
团队坚持认为,扩大训练数据和计算资源,配合更强大的评估框架,仍然是改进性能和鲁棒性的直接路径。同时,他们也明确指出了当前医学VLM的共同局限,包括减少长文本生成中的幻觉、提高分布移位下的可靠性、强化多步医学推理。
这不仅是技术的迭代,更是对医学AI社会责任的践行。
结语
MedXIAOHE和其配套的评估框架的发布,对医学AI生态具有重要意义。它不仅展示了多模态大语言模型在医学领域的强大潜力,更重要的是提供了一个可参考的开发范式------如何从追求基准优势,转向追求临床可用、可信和可靠。
对于企业和投资者而言,这代表着医学AI从"演示阶段"向"产品化阶段"的过渡。真正的价值不在于某个基准上领先几个百分点,而在于能否构建医生信任、支持现实诊疗流程、适应多样化临床场景的系统。
MedXIAOHE的推出,为这个目标指明了方向。