Merlin:面向腹部 CT 的三维视觉语言基础模型

腹部 CT 年检查量巨大且放射科医师资源持续短缺,现有医学视觉语言模型多局限于二维图像与短文本处理,难以解析三维容积信息,且高度依赖人工标注,泛化能力与临床实用性不足。斯坦福大学研究团队提出Merlin,构建原生三维视觉语言模型,联合电子健康记录与放射报告进行无标注预训练,突破二维模型在三维医学影像理解中的局限,实现多任务自动化分析。

Merlin 采用三维膨胀残差网络作为图像编码器,搭配长上下文文本编码器,同时融合电子健康记录诊断码与放射报告文本构建多任务预训练框架,无需额外标注即可学习影像与文本的对齐表示。图 1 展示模型整体架构与任务流程,预训练阶段同时利用影像、文本与诊断码监督,后续可直接适配零样本分类、表型预测、报告生成、器官分割等六大类任务。在零样本征象分类任务中,内部数据集平均 F1 值达 0.741,外部数据集为 0.647,显著优于二维基线模型,相关结果见图 2表 4 。消融实验表明,三维初始化、多任务训练与报告分节处理可共同提升模型性能,如表 5所示。

表型分类覆盖 692 类表型,整体 AUROC 达到 0.812,其中 258 类表型超过 0.85,数据规模与模型结构对性能影响显著,表 6 呈现不同架构与训练策略下的效果差异。跨模态检索任务中,影像到报告检索的 Recall@1 在 64 样本池中达 69.6%,远高于 OpenCLIP 与 BioMedCLIP,表 8 验证三维表征在跨模态匹配中的优势。在五年慢性病预测任务中,全量数据平均 AUROC 为 0.757,仅用 10% 标注数据仍可达 0.708,小样本场景优势突出,结果见表 10

Merlin 在单 GPU 上完成训练,计算成本友好,同时开放模型、代码与数据集,为中小型医疗机构提供可落地的三维医学影像分析方案。模型不局限于腹部 CT,在胸部 CT 线性探测任务中同样超越专用模型,具备跨部位拓展潜力。

https://www.nature.com/articles/s41586-026-10181-8

项目链接:https://github.com/StanfordMIMI/Merlin

想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory ------ 一款革命性的大模型微调工具。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
OpenClaw 火到爆,90% 人装不上!2026年4 月 11 日 17:30|叶梓老师免费直播零基础保姆级安装,命令行 / 环境坑一次全解。

相关推荐
keykey6.5 分钟前
卷积神经网络(CNN):让AI学会“看“
开发语言·人工智能·深度学习·机器学习
kcuwu.5 分钟前
Claw Code 项目架构万字解读
人工智能·架构
qq7422349847 分钟前
从“感知”到“决断”:测评百度伐谋产业决策智能体的端到端推理与行动机制
人工智能·算法·百度·大模型·运筹优化
暗夜猎手-大魔王10 分钟前
转载--Hermes Agent 11 | 智能审批与平台化安全:当 AI 来守护 AI
人工智能·python·安全
feiwuw11 分钟前
氛围编程是什么?以及为什么它又分出了“规划”和“严肃”模式
人工智能·氛围编程
是烨笙啊15 分钟前
如何获取 dify-deploy skill 所需要的三个key值
人工智能·ai编程·dify
龙腾AI白云17 分钟前
智能体+大模型=新生产力
人工智能·plotly·知识图谱
智塑未来19 分钟前
AI耳机哪个牌子好?EARWEISS听智慧凭硬核技术脱颖而出
人工智能
辣香牛肉面20 分钟前
Stable Diffusion本地部署教程及模型包
人工智能
升鲜宝供应链及收银系统源代码服务25 分钟前
升鲜宝AI助手 E-R 图与操作说明书(三)---升鲜宝生鲜配送供应链管理系统源代码服务
大数据·人工智能·机器学习·生鲜供应链源代码·供应链源代码出售·生鲜配送源代码服务·门店连锁系统源代码