MedXIAOHE:医学多模态大模型的完整解决方案,字节跳动小荷医学推出

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs


摘要

字节跳动小荷医学AI团队推出MedXIAOHE,一款医学视觉-语言基础模型,在30+医学基准测试中达到业界领先水平,超越多个闭源系统。该模型集成了实体感知持续预训练、多步诊断推理和证据驱动报告生成等创新能力,为真实临床应用提供了可靠的多模态医学理解和推理能力。

阅读原文或https://t.zsxq.com/qTWcc获取原文pdf


正文

导语:医疗AI的"工业级"升级

医学决策从来都是多模态的。患者症状、病史、体检、放射影像、病理图像和临床报告,这些不同形式的信息必须整合在一起,才能做出准确的诊断。然而,构建一个真正适用于现实临床工作流的医学基础模型仍然充满挑战。

近日,字节跳动XiaoHe医学AI团队发布了MedXIAOHE,这是一个经过精心设计的医学视觉-语言基础模型。与其他模型不同的是,MedXIAOHE不仅追求基准测试的数字优化,更关注临床可用性、可靠性和鲁棒性------这些往往决定模型能否真正走进医院、服务医生。

三大核心创新

1. 实体感知的持续预训练框架

传统的预训练方法往往面临一个棘手的问题:长尾知识覆盖不足。罕见病、不典型表现、复杂并发症等医学"长尾"场景中,模型常常给出自信但错误的答案。

MedXIAOHE采用了创新的实体感知、多模态原生分辨率持续预训练策略。这个方法的妙处在于,它围绕一个以实体为中心的分类法来组织异质的医学语料库,从而扩大医学知识覆盖范围,提高模型在不同专科和模态下的鲁棒性。换句话说,模型学习时不仅看数据量,还要看数据的"组织逻辑"。

2. 证据驱动的报告生成管道

长期以来,医学AI的一个"痛点"就是幻觉问题------模型生成的报告可能包含细微的曲解或过度解读,这在医学领域可能带来严重后果。

MedXIAOHE建立了一个多阶段的证据驱动报告生成管道,包括:

  • 多阶段草稿生成

  • 医学实体提取与检索

  • 批评与改写循环

  • 基于医学指标的生成奖励模型训练

这个设计像是给模型安装了一个"医学审稿官",确保每一句临床描述都有证据支撑,从而有效抑制了细微幻觉和过度诠释。

3. 工具增强的多步诊断推理

真实的临床工作流是交互式的。医生不是简单地回答问题,而是需要收集缺失信息、咨询参考资料、验证中间假设。

MedXIAOHE通过强化学习和工具增强的智能体训练,支持具有可验证决策痕迹的多步诊断推理。这意味着模型不仅给出诊断结论,还能展示推理过程,让医生能够理解和验证每一步的逻辑。

全方位的能力释放

MedXIAOHE的性能涵盖多个关键医学能力维度:

  • 视觉诊断与图像识别

    :在院内和公开评估中表现一致强劲,超越SOTA模型在院内VQA/Caption/OCR以及MMMU医学系列测试中的表现

  • 医学影像

    :在SLAKE、PATH_VQA、OmniMedVQA等异质放射学/病理VQA任务上表现出明显优势

  • 诊断推理

    :在RareBench和MedBrowseComp上表现竞争力强劲,在复杂和罕见病诊断中展现稳健的医学决策能力

  • 医学文本

    :在PubMedQA、MedQA、CMExam等多个医学QA基准上展示扎实的临床知识和推理能力

  • 医学报告生成

    :在MIMIC-CXR和CheXpert Plus上表现良好,表明可靠的放射学报告生成和临床发现覆盖能力

  • 指令遵循

    :在多约束和医学导向的指令基准上效果显著,支持其在指令驱动医学应用中的实用性

统一的评估框架:连接基准与临床

医学AI的一个长期痛点是评估的零散性。不同研究使用不同的提示词、评分方法和污染控制标准,导致结果难以重现和比较。

MedXIAOHE提出了一个统一的医学VLM基准框架,整合了30+个公开基准,采用统一的协议、提示词和去污染方法,实现了可重现的测量和更有意义的跨模型比较。同时,团队还补充了针对临床上重要但被低估的能力的院内评估。

特别值得一提的是,团队开发了一个院内字幕基准,基于真实临床图像,聚焦于病灶和其他视觉标记的发现。每张图像都由两名持证医生独立审查和论证,确保了评估的医学可信度。

从基准到诊所:可靠性的追求

与追求基准分数不同,MedXIAOHE的设计哲学更深层:如何让AI真正在临床中可用。

模型的设计特点包括:

  • 用户偏好对齐

    :通过医学指标训练,确保输出符合临床实践偏好

  • 证据接地

    :每个推理步骤都有据可查,增强可信度

  • 低幻觉报告

    :多阶段批判与改写流程确保生成内容的准确性

  • 医学指令遵循

    :增强对医学指令的理解和执行能力

为什么这很重要

医学AI的成功标准不仅仅是基准数据,更是临床实际应用。MedXIAOHE的这些设计选择反映了对医学领域特殊性的深刻理解:

医学输入是异质的------成像协议因机构而异,视觉检查图像在非控制条件下捕获,报告可能包含细微细节,遗漏或扭曲会改变临床意义。医学任务要求不仅精度高,还要有纪律性的证据使用、跨不同环境的稳定行为和可靠的长文本生成。

展望与承诺

团队坚持认为,扩大训练数据和计算资源,配合更强大的评估框架,仍然是改进性能和鲁棒性的直接路径。同时,他们也明确指出了当前医学VLM的共同局限,包括减少长文本生成中的幻觉、提高分布移位下的可靠性、强化多步医学推理。

这不仅是技术的迭代,更是对医学AI社会责任的践行。

结语

MedXIAOHE和其配套的评估框架的发布,对医学AI生态具有重要意义。它不仅展示了多模态大语言模型在医学领域的强大潜力,更重要的是提供了一个可参考的开发范式------如何从追求基准优势,转向追求临床可用、可信和可靠。

对于企业和投资者而言,这代表着医学AI从"演示阶段"向"产品化阶段"的过渡。真正的价值不在于某个基准上领先几个百分点,而在于能否构建医生信任、支持现实诊疗流程、适应多样化临床场景的系统。

MedXIAOHE的推出,为这个目标指明了方向。

相关推荐
天一生水water2 小时前
科研龙虾 Research-Claw 使用教程
人工智能
熊猫钓鱼>_>2 小时前
WorkBuddy使用心得:腾讯版“免部署小龙虾“的办公新体验
人工智能·ai·腾讯云·agent·wechat·openclaw·workbuddy
KG_LLM图谱增强大模型2 小时前
MedHELM:真实临床医疗任务大语言模型的整体评估框架
人工智能·语言模型·自然语言处理
海涛从不浪2 小时前
Claude Code+MiniMax安装配置(新手小白向)
人工智能
Neptune12 小时前
大模型入门:从 TOKEN 到 Agent,搞懂 AI 的底层逻辑(上)
人工智能·深度学习
scott1985122 小时前
扩散模型之(十六)像素空间生成模型
人工智能·深度学习·计算机视觉·生成式
拖拖7652 小时前
深度学习架构的进化:ResNet-v2 与预激活的力量
人工智能
蔚天灿雨2 小时前
Kage:在 Codex、Claude 和 QoderCLI 等 CodingAgentCLI 之间 Fork 与迁移 Session
人工智能·ai·agent·ai编程
no_work2 小时前
yolo摄像头下的目标检测识别集合
人工智能·深度学习·yolo·目标检测·计算机视觉