Merlin:面向腹部 CT 的三维视觉语言基础模型

腹部 CT 年检查量巨大且放射科医师资源持续短缺,现有医学视觉语言模型多局限于二维图像与短文本处理,难以解析三维容积信息,且高度依赖人工标注,泛化能力与临床实用性不足。斯坦福大学研究团队提出Merlin,构建原生三维视觉语言模型,联合电子健康记录与放射报告进行无标注预训练,突破二维模型在三维医学影像理解中的局限,实现多任务自动化分析。

Merlin 采用三维膨胀残差网络作为图像编码器,搭配长上下文文本编码器,同时融合电子健康记录诊断码与放射报告文本构建多任务预训练框架,无需额外标注即可学习影像与文本的对齐表示。图 1 展示模型整体架构与任务流程,预训练阶段同时利用影像、文本与诊断码监督,后续可直接适配零样本分类、表型预测、报告生成、器官分割等六大类任务。在零样本征象分类任务中,内部数据集平均 F1 值达 0.741,外部数据集为 0.647,显著优于二维基线模型,相关结果见图 2表 4 。消融实验表明,三维初始化、多任务训练与报告分节处理可共同提升模型性能,如表 5所示。

表型分类覆盖 692 类表型,整体 AUROC 达到 0.812,其中 258 类表型超过 0.85,数据规模与模型结构对性能影响显著,表 6 呈现不同架构与训练策略下的效果差异。跨模态检索任务中,影像到报告检索的 Recall@1 在 64 样本池中达 69.6%,远高于 OpenCLIP 与 BioMedCLIP,表 8 验证三维表征在跨模态匹配中的优势。在五年慢性病预测任务中,全量数据平均 AUROC 为 0.757,仅用 10% 标注数据仍可达 0.708,小样本场景优势突出,结果见表 10

Merlin 在单 GPU 上完成训练,计算成本友好,同时开放模型、代码与数据集,为中小型医疗机构提供可落地的三维医学影像分析方案。模型不局限于腹部 CT,在胸部 CT 线性探测任务中同样超越专用模型,具备跨部位拓展潜力。

https://www.nature.com/articles/s41586-026-10181-8

项目链接:https://github.com/StanfordMIMI/Merlin

想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory ------ 一款革命性的大模型微调工具。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
OpenClaw 火到爆,90% 人装不上!2026年4 月 11 日 17:30|叶梓老师免费直播零基础保姆级安装,命令行 / 环境坑一次全解。

相关推荐
AI_Auto2 小时前
【智能制造】-五大AI场景重塑智能制造
人工智能·制造
ggabb2 小时前
光芯片技术突破与AI算力应用解析
人工智能
大强同学2 小时前
Obsidian CLI + Claude Code = 王炸组合
人工智能·windows·ai编程·cli
工业机器视觉设计和实现2 小时前
微分方程的联想
人工智能·神经网络·感想
罗罗攀3 小时前
PyTorch学习笔记|神经网络的损失函数
人工智能·pytorch·笔记·神经网络·学习
枫叶林FYL3 小时前
第9章 因果推理与物理理解
人工智能·算法·机器学习
AIBox3653 小时前
openclaw api 配置排查与接入指南:网关启动、配置文件和模型接入全流程
javascript·人工智能·gpt
LoserChaser3 小时前
OpenClaw 指令大全:分类详解与使用指南
人工智能·ai·语言模型
TDengine (老段)3 小时前
TDengine IDMP 可视化 —— 面板
大数据·数据库·人工智能·物联网·ai·时序数据库·tdengine