Merlin:面向腹部 CT 的三维视觉语言基础模型

腹部 CT 年检查量巨大且放射科医师资源持续短缺,现有医学视觉语言模型多局限于二维图像与短文本处理,难以解析三维容积信息,且高度依赖人工标注,泛化能力与临床实用性不足。斯坦福大学研究团队提出Merlin,构建原生三维视觉语言模型,联合电子健康记录与放射报告进行无标注预训练,突破二维模型在三维医学影像理解中的局限,实现多任务自动化分析。

Merlin 采用三维膨胀残差网络作为图像编码器,搭配长上下文文本编码器,同时融合电子健康记录诊断码与放射报告文本构建多任务预训练框架,无需额外标注即可学习影像与文本的对齐表示。图 1 展示模型整体架构与任务流程,预训练阶段同时利用影像、文本与诊断码监督,后续可直接适配零样本分类、表型预测、报告生成、器官分割等六大类任务。在零样本征象分类任务中,内部数据集平均 F1 值达 0.741,外部数据集为 0.647,显著优于二维基线模型,相关结果见图 2表 4 。消融实验表明,三维初始化、多任务训练与报告分节处理可共同提升模型性能,如表 5所示。

表型分类覆盖 692 类表型,整体 AUROC 达到 0.812,其中 258 类表型超过 0.85,数据规模与模型结构对性能影响显著,表 6 呈现不同架构与训练策略下的效果差异。跨模态检索任务中,影像到报告检索的 Recall@1 在 64 样本池中达 69.6%,远高于 OpenCLIP 与 BioMedCLIP,表 8 验证三维表征在跨模态匹配中的优势。在五年慢性病预测任务中,全量数据平均 AUROC 为 0.757,仅用 10% 标注数据仍可达 0.708,小样本场景优势突出,结果见表 10

Merlin 在单 GPU 上完成训练,计算成本友好,同时开放模型、代码与数据集,为中小型医疗机构提供可落地的三维医学影像分析方案。模型不局限于腹部 CT,在胸部 CT 线性探测任务中同样超越专用模型,具备跨部位拓展潜力。

https://www.nature.com/articles/s41586-026-10181-8

项目链接:https://github.com/StanfordMIMI/Merlin

想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory ------ 一款革命性的大模型微调工具。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
OpenClaw 火到爆,90% 人装不上!2026年4 月 11 日 17:30|叶梓老师免费直播零基础保姆级安装,命令行 / 环境坑一次全解。

相关推荐
闵孚龙5 分钟前
Claude Code 沙箱系统全解析:Seatbelt、Bubblewrap、AI Agent 安全隔离、权限治理与企业级防护
人工智能·安全
:mnong6 分钟前
MIT OpenCourseWare 25周年庆典与学习者故事
人工智能·mitocw
带娃的IT创业者9 分钟前
Claude Code 源码泄露事件深度剖析:当 AI 编程工具不再“透明”
人工智能·ai编程·ai安全·源码泄露·claude code·工程伦理
zxsz_com_cn12 分钟前
设备预测性维护系统集成的关键技术与实践
人工智能·物联网
TheRouter14 分钟前
AI Agent 工具数量超过 12 个后,选择准确率从 95% 拦腰跌到53%
人工智能
啦啦啦_999914 分钟前
神经网络基础
人工智能·深度学习·神经网络
winlife_15 分钟前
Funplay Unity MCP 与 Unity AI Assistant 详细对比:开源 MCP 工具集 vs 官方全栈 AI 产品
人工智能·unity·开源·ai编程·claude·mcp
老马952715 分钟前
opencode8-桌面应用实战 3
前端·人工智能·后端
Σίσυφος190016 分钟前
正则化数据并校准数据
人工智能·算法·机器学习
CCC:CarCrazeCurator16 分钟前
【DriveGen 文件详解】02——train.py
人工智能·机器学习·自动驾驶