MedXIAOHE：医学多模态大模型的完整解决方案，字节跳动小荷医学推出

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

字节跳动小荷医学AI团队推出MedXIAOHE，一款医学视觉-语言基础模型，在30+医学基准测试中达到业界领先水平，超越多个闭源系统。该模型集成了实体感知持续预训练、多步诊断推理和证据驱动报告生成等创新能力，为真实临床应用提供了可靠的多模态医学理解和推理能力。

导语：医疗AI的"工业级"升级

医学决策从来都是多模态的。患者症状、病史、体检、放射影像、病理图像和临床报告，这些不同形式的信息必须整合在一起，才能做出准确的诊断。然而，构建一个真正适用于现实临床工作流的医学基础模型仍然充满挑战。

近日，字节跳动XiaoHe医学AI团队发布了MedXIAOHE，这是一个经过精心设计的医学视觉-语言基础模型。与其他模型不同的是，MedXIAOHE不仅追求基准测试的数字优化，更关注临床可用性、可靠性和鲁棒性------这些往往决定模型能否真正走进医院、服务医生。

三大核心创新

1. 实体感知的持续预训练框架

传统的预训练方法往往面临一个棘手的问题：长尾知识覆盖不足。罕见病、不典型表现、复杂并发症等医学"长尾"场景中，模型常常给出自信但错误的答案。

MedXIAOHE采用了创新的实体感知、多模态原生分辨率持续预训练策略。这个方法的妙处在于，它围绕一个以实体为中心的分类法来组织异质的医学语料库，从而扩大医学知识覆盖范围，提高模型在不同专科和模态下的鲁棒性。换句话说，模型学习时不仅看数据量，还要看数据的"组织逻辑"。

2. 证据驱动的报告生成管道

长期以来，医学AI的一个"痛点"就是幻觉问题------模型生成的报告可能包含细微的曲解或过度解读，这在医学领域可能带来严重后果。

MedXIAOHE建立了一个多阶段的证据驱动报告生成管道，包括：

这个设计像是给模型安装了一个"医学审稿官"，确保每一句临床描述都有证据支撑，从而有效抑制了细微幻觉和过度诠释。

3. 工具增强的多步诊断推理

真实的临床工作流是交互式的。医生不是简单地回答问题，而是需要收集缺失信息、咨询参考资料、验证中间假设。

MedXIAOHE通过强化学习和工具增强的智能体训练，支持具有可验证决策痕迹的多步诊断推理。这意味着模型不仅给出诊断结论，还能展示推理过程，让医生能够理解和验证每一步的逻辑。

全方位的能力释放

MedXIAOHE的性能涵盖多个关键医学能力维度：

统一的评估框架：连接基准与临床

医学AI的一个长期痛点是评估的零散性。不同研究使用不同的提示词、评分方法和污染控制标准，导致结果难以重现和比较。

MedXIAOHE提出了一个统一的医学VLM基准框架，整合了30+个公开基准，采用统一的协议、提示词和去污染方法，实现了可重现的测量和更有意义的跨模型比较。同时，团队还补充了针对临床上重要但被低估的能力的院内评估。

特别值得一提的是，团队开发了一个院内字幕基准，基于真实临床图像，聚焦于病灶和其他视觉标记的发现。每张图像都由两名持证医生独立审查和论证，确保了评估的医学可信度。

从基准到诊所：可靠性的追求

与追求基准分数不同，MedXIAOHE的设计哲学更深层：如何让AI真正在临床中可用。

模型的设计特点包括：

为什么这很重要

医学AI的成功标准不仅仅是基准数据，更是临床实际应用。MedXIAOHE的这些设计选择反映了对医学领域特殊性的深刻理解：

医学输入是异质的------成像协议因机构而异，视觉检查图像在非控制条件下捕获，报告可能包含细微细节，遗漏或扭曲会改变临床意义。医学任务要求不仅精度高，还要有纪律性的证据使用、跨不同环境的稳定行为和可靠的长文本生成。

展望与承诺

团队坚持认为，扩大训练数据和计算资源，配合更强大的评估框架，仍然是改进性能和鲁棒性的直接路径。同时，他们也明确指出了当前医学VLM的共同局限，包括减少长文本生成中的幻觉、提高分布移位下的可靠性、强化多步医学推理。

这不仅是技术的迭代，更是对医学AI社会责任的践行。

结语

MedXIAOHE和其配套的评估框架的发布，对医学AI生态具有重要意义。它不仅展示了多模态大语言模型在医学领域的强大潜力，更重要的是提供了一个可参考的开发范式------如何从追求基准优势，转向追求临床可用、可信和可靠。

对于企业和投资者而言，这代表着医学AI从"演示阶段"向"产品化阶段"的过渡。真正的价值不在于某个基准上领先几个百分点，而在于能否构建医生信任、支持现实诊疗流程、适应多样化临床场景的系统。

MedXIAOHE的推出，为这个目标指明了方向。