利用 MedGemma 1.5 与 MedASR 构建下一代医疗应用

人工智能在医疗保健领域的应用正在急速增长,其行业的 AI 采用率已达到整体经济领域的两倍。为了助力这一变革,Google 于去年通过 Health AI Developer Foundations (HAI-DEF) 计划发布了 MedGemma 系列开放医疗生成式 AI 模型。MedGemma 等 HAI-DEF 模型旨在让开发者以此为基石,评估和调整其医疗应用场景,开发者还可以通过 Vertex AI 在 Google Cloud 平台轻松扩展这类模型。MedGemma 自发布以来持续引发热烈反响,其在 Hugging Face 的下载量已达数百万次,该平台社区中也涌现出了数百个基于该模型的衍生版本。

△ MedGemma 作为开发者工具预期用途的流程图。

我们乘势而上,继续发布 MedGemma 1.5 4B,并在 Kaggle 平台启动 MedGemma 挑战赛黑客马拉松。基于开发者社区的直接反馈,本次模型更新让开发者得以更高效地调整 MedGemma,以适配涉及多种医学影像模态的应用场景:

  • 高维医学影像: 计算机断层扫描 (CT)、核磁共振成像 (MRI) 和组织病理学

  • 纵向医学影像: 对胸部 X 光片进行的时间序列对比分析

  • 解剖结构定位: 在胸部 X 光片中定位解剖结构特征

  • 医学文档理解: 从医学实验报告中提取结构化数据

相较于 MedGemma 1 4B,MedGemma 1.5 4B 在文字、医疗记录和 2D 图像等核心功能方面均提高了准确性。我们此次发布的更新版 4B 模型,旨在为开发者提供一个理想的计算高效起点,并且其规模小到足以离线运行。而对于更复杂的文本类应用,开发者可以继续使用我们的 MedGemma 1 27B 参数模型。您可以阅读 MedGemma 1.5 模型卡片,详细了解 MedGemma 1.5 4B 模型及其性能基准。

我们还于近期在 Hugging Face 和 Vertex AI 平台同步发布了 MedASR,这是一款全新的自动化语音识别 (ASR) 开放模型,已针对医疗口述场景进行了微调。MedASR 的初始版本让开发者可以将医疗语音转换成文字,并可与 MedGemma 无缝整合以执行高级推理任务。

MedGemma 1.5、MedASR 和包括 MedSigLIP 图像编码器在内的所有 HAI-DEF 模型仍可免费用于研究和商业用途,您可以通过 Hugging Face 下载,也可以借助 Vertex AI 对其进行训练和调整以满足云端可扩展应用的需求。

△ MedGemma 模型系列及其能力概述。

MedGemma 挑战赛

我们希望鼓励开发者探索更多富有创意且具影响力的 MedGemma 模型应用场景,以推动医疗保健领域变革。为此,我们启动了由 Kaggle 主办的 MedGemma 挑战赛,这场黑客马拉松奖金高达 100,000 美元,并向所有开发者开放,让他们有机会基于 MedGemma 和 HAI-DEF 进行构建,以展示 AI 在医疗保健和生命科学领域的潜力。我们期待看到大家的构建成果!

医学影像应用场景的性能改进

MedGemma 的初始定位就是一款多模态模型,旨在应对医学的多模态特性。MedGemma 1 已支持解读二维医学影像,包括胸部 X 光片、皮肤科图像、眼底影像和组织病理学切片。

而目前,我们正在借助 MedGemma 1.5 扩展对更高维医学影像的支持,前期目标便是以三维立体方式展现 CT 图像和 MRI,以及全切片组织病理学影像。开发者在创建应用时,可以将多个切片 (CT 或 MRI) 或多个图块 (病理学) 连同任务指令一并输入模型。

内部基准测试数据表明,相较于 MedGemma 1,MedGemma 1.5 在疾病相关 CT 检查结果分类方面的基准绝对准确率平均提升了 3% (61% vs. 58%),在疾病相关 MRI 检查结果分类方面的基准绝对准确率则平均提升了 14% (65% vs. 51%)。除此之外,在一项涵盖组织病理学切片及相关检查结果的多样化内部基准测试中,根据仅含一份病理学切片的病例得出的 ROUGE-L 分数,MedGemma 1.5 预测结果的保真度较 MedGemma 1 提高了 0.47 (0.49 vs. 0.02),与任务专用 PolyPath 模型取得的分数 (0.498) 旗鼓相当。

CT 基础模型则是我们之前用于生成 CT 嵌入向量的 API 工具,此次对高维的支持是其自然演进的产物。据我们所知,MedGemma 1.5 是首个公开发布的开放多模态大语言模型,既能解读高维医疗数据,同时又保留了对通用二维数据和文本的理解能力。虽然这些功能仍处于早期阶段且有待完善,但开发者将能根据自有数据微调 MedGemma 模型,以取得更亮眼的成效,并且我们也将持续改进 MedGemma 模型。我们已经发布了教程 Notebook,用于说明如何将这种高维图像功能用于 CT (Hugging Face、Model Garden) 和组织病理学 (Hugging Face、Model Garden)。

△ 展示了如何使用 MedGemma 1.5 4B 解读 CT 三维数据,以及经认证的胸部放射科医生对输出质量所做的点评。请注意,MedGemma 不能在未经开发者对其具体用例进行适当验证、调整和/或做出实质性修改的情况下直接使用。

在其他形式的医学图像解读任务中,MedGemma 1.5 4B 模型的基准性能较 MedGemma 1 4B 也有显著提升:

  • 解剖结构定位: 在胸部 X 光片中定位解剖特征;Chest ImaGenome 基准测试结果表明,交并比提高了 35% (38% vs. 3%)。请参阅我们的解剖结构定位教程 Notebook。

  • 纵向医学影像: 对胸部 X 光片进行的时间序列对比分析;MS-CXR-T 基准测试结果表明,整体准确率提高了 5% (66% vs. 61%)。请参阅下方图片示例,以及我们的纵向医学影像教程 Notebook。

  • 医学图像解读: 针对胸部 X 光片、皮肤病学、组织病理学和眼科学的内部单幅图像基准测试表明,准确率提升了 3% (62% vs. 59%)。

  • 检验报告提取: 从医学检验报告中提取结构化数据 (检验类型、数值、单位);一项内部检验报告基准测试的结果表明,检索宏观 F1 分数提高了 18% (78% vs. 60%)。

△ MedGemma 1.5 4B 增强了对医学影像的支持,其在通过胸部 X 光片解读高维图像、定位解剖特征和评估纵向疾病、解读通用医学图像,以及从医学检验报告中提取内容等方面的表现均优于 MedGemma 1 4B。

△ 展示如何使用 MedGemma 1.5 4B 解读胸部 X 光片纵向成对图像,以及经认证的胸部放射科医生对输出质量所做的点评。请注意,MedGemma 不能在未经开发者对其具体用例进行适当验证、调整和/或做出实质性修改的情况下直接使用。

此外,部署于 Google Cloud 的 MedGemma 应用现已全方位支持 DICOM,这使得调整 MedGemma 以满足医学影像应用之需变得更加容易。

文本功能改进

除了改进对医疗图像的支持,我们还努力提升了 MedGemma 的基础医学文本处理能力。在引入全新训练数据集和训练技术后,MedGemma 1.5 4B 在 MedQA 方面的表现较 MedGemma 1 4B 提升了 5% (69% vs. 64%),在针对 EHR 问题 (EHRQA) 方面更是提升了 22% (90% vs. 68%)。

△ 与 MedGemma 1 4B 相比,MedGemma 1.5 4B 在基于文字的任务领域有所改进,包括在医学推理 (MedQA) 和电子健康档案信息 (EHRQA) 检索方面的表现。

MedASR: 面向医学自动化语音识别的开放模型

虽然文本目前仍是大语言模型的主要交互方式,但口头交流在医疗保健的多个方面仍然至关重要,其中包括处理医疗口述,以及医患之间的实时对话等。除此之外,语音也提供了一种与语言模型交互的更自然的方式。

我们研发了用于医疗场景语音转译的 MedASR 语音转文本模型,以支持需要熟悉医疗保健领域专业词汇的应用场景。MedASR 既可用于转录医疗口述,还可作为一种更自然的交互方式,为 MedGemma 生成输入指令。在对比 MedASR 与通用 ASR 模型 Whisper large-v3 的性能后,我们发现 MedASR 在处理胸部 X 光片语音输入内容方面的错误率降低了 58% (单词错误率 (WER): 5.2% vs. 12.5%),在涉及多种专业和多位发言人的内部医疗口述基准测试中,错误率更是减少了 82% (WER: 5.2% vs. 28.2%)。我们发布了一系列教程 Notebook,希望可以帮助开发者创建和适配他们的自有系统,以将 MedASR 的音频理解能力与 MedGemma 1.5 的临床推理能力完美结合。您可以参阅 MedASR 模型卡片了解详情。

△ MedASR 既可用于转录医疗口述 (上图),也可用于为 MedGemma 生成输入指令 (下图)。

开发者如何使用 MedGemma

我们看到世界各地的医疗健康科技初创公司与开发者正积极利用 MedGemma,以加速推进面向各种用例和应用场景的研究与产品开发进程。

例如,Qmed Asia 已将 MedGemma 整合至 askCPG,为马来西亚 150 多项临床实践指南提供了一个交互式的对话界面。据马来西亚卫生部称,此对话式界面显著提升了临床指南在日常决策支持中的实用性,并且通过 MedGemma 提供的多模态医学图像扩展程序在试点部署中颇受欢迎。

此外,台湾地区的健康保险署已将 MedGemma 引入肺癌手术的术前评估体系。他们使用 MedGemma 从 30,000 余份病理学报告和非结构化数据中提取关键数据,继而执行统计分析,以评估患者的术前状况。这项工作旨在为政策决策提供参考信息,以优化手术切除的决策流程,从而改善患者预后结果。

自发布以来,MedGemma 已在医学 AI 研究中被广泛引用,作为理解医学文字、协助制定多学科联合会诊、解读乳腺 X 光片报告及其他临床应用场景的基础模型,并且性能表现优于其他模型。

开始使用

您可以通过 Hugging Face 合集或 Google Cloud 的 Vertex AI 获取 MedGemma 全系列模型。MedASR 当前已在 Hugging Face 和 Vertex AI 平台上线。如果您对构建下一代医疗 AI 应用充满想法,欢迎参与 MedGemma 挑战赛。

欢迎浏览我们的 MedGemma GitHub 代码库,探索扩展系列教程,其中包括有关运行推理和基于 LoRA 的监督式微调的教程,以及有关强化学习的全新教程,这种调整方法对于学习复杂任务尤为有效,并且不会影响现有模型功能。

您可以访问 HAI-DEF 网站,获取有关 MedGemma 1.5 和其他 Health AI Developer Foundations (健康领域的 AI 开发者基础) 模型的资源,也可以订阅我们的简报。欢迎前往 HAI-DEF 论坛获取技术支持。

我们非常期待社区成员能够利用这些新模型构建出精彩应用,并且欢迎大家提供反馈意见。

△ 此表总结了模型功能,有助于您了解哪款模型最适合您的用例。

数据集说明

我们根据多个公开和私有的去标识化数据集对模型进行了训练和评估。Google 及其合作伙伴均采用经过严格匿名化或去识别化的数据集,以保护个人研究参与者和患者的隐私。

免责声明

MedGemma 与 MedASR 等 HAI-DEF 系列模型作为一个研发起点,旨在助力开发者高效构建处理医疗文本与影像的下游应用。HAI-DEF 不能在未经开发者对其具体用例进行适当验证、调整和/或做出实质性修改的情况下直接使用。这些模型生成的输出不能直接用于提供临床诊断、患者管理决策、治疗建议,或任何其他临床实践应用。此处报告的性能基准仅用于突出显示基准功能,并不意味着 MedGemma 在任何特定医疗应用中都安全可靠。可能存在此处未有列出的模型输出错误。所有模型输出均应被视作初步结果,并且需要通过成熟的研发方法进行独立验证、临床关联和深入调查。如需了解详细信息,请参阅使用条款和禁止使用政策。

致谢

MedGemma、MedGemma 挑战赛和 MedASR 是多个 Google 团队协作负责的项目。非常感谢为这些项目做出贡献的诸位伙伴,包括 Health AI、Gemma 和 Kaggle 工程团队成员和跨职能团队成员,以及 Google 研究和 Google DeepMind 的赞助商。

也欢迎您持续关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态。