Merlin：面向腹部 CT 的三维视觉语言基础模型

腹部 CT 年检查量巨大且放射科医师资源持续短缺，现有医学视觉语言模型多局限于二维图像与短文本处理，难以解析三维容积信息，且高度依赖人工标注，泛化能力与临床实用性不足。斯坦福大学研究团队提出Merlin，构建原生三维视觉语言模型，联合电子健康记录与放射报告进行无标注预训练，突破二维模型在三维医学影像理解中的局限，实现多任务自动化分析。

Merlin 采用三维膨胀残差网络作为图像编码器，搭配长上下文文本编码器，同时融合电子健康记录诊断码与放射报告文本构建多任务预训练框架，无需额外标注即可学习影像与文本的对齐表示。图 1 展示模型整体架构与任务流程，预训练阶段同时利用影像、文本与诊断码监督，后续可直接适配零样本分类、表型预测、报告生成、器官分割等六大类任务。在零样本征象分类任务中，内部数据集平均 F1 值达 0.741，外部数据集为 0.647，显著优于二维基线模型，相关结果见图 2 与表 4 。消融实验表明，三维初始化、多任务训练与报告分节处理可共同提升模型性能，如表 5所示。

表型分类覆盖 692 类表型，整体 AUROC 达到 0.812，其中 258 类表型超过 0.85，数据规模与模型结构对性能影响显著，表 6 呈现不同架构与训练策略下的效果差异。跨模态检索任务中，影像到报告检索的 Recall@1 在 64 样本池中达 69.6%，远高于 OpenCLIP 与 BioMedCLIP，表 8 验证三维表征在跨模态匹配中的优势。在五年慢性病预测任务中，全量数据平均 AUROC 为 0.757，仅用 10% 标注数据仍可达 0.708，小样本场景优势突出，结果见表 10。

Merlin 在单 GPU 上完成训练，计算成本友好，同时开放模型、代码与数据集，为中小型医疗机构提供可落地的三维医学影像分析方案。模型不局限于腹部 CT，在胸部 CT 线性探测任务中同样超越专用模型，具备跨部位拓展潜力。

https://www.nature.com/articles/s41586-026-10181-8

项目链接：https://github.com/StanfordMIMI/Merlin

想要掌握如何将大模型的力量发挥到极致吗？叶梓老师带您深入了解 Llama Factory ------ 一款革命性的大模型微调工具。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987
OpenClaw 火到爆，90% 人装不上！2026年4 月 11 日 17:30｜叶梓老师免费直播零基础保姆级安装，命令行 / 环境坑一次全解。