两篇刚开源的顶会工作:一个对齐图像块,一个对齐解剖区,医学分类方向真能抄作业!

医学视觉-语言预训练 (Med-VLP) 领域,利用大模型自动解析三维CT扫描是一项关键的临床应用研究。

目前的挑战在于:真实CT病灶具有极强的空间稀疏性,同时长篇的医学报告由于句子分散,往往难以与医学图像中的局部解剖区域建立精确的细粒度特征对应。传统的全局**对比学习 (CL)**很难应对这种错位问题。本次解析的两篇最新论文从细粒度特征学习的角度出发,给出了创新方案:第一篇通过提取图像块的特征与句子进行相似度匹配并对齐;第二篇则通过将CT和报告解构为明确的解剖学子区域,直接执行器官级的精准识别。这两种方法均在多种下游医学分类和分割任务中取得了优异的性能表现。

我整理了医学分类+预训练大模型方向相关论文合集,感兴趣的dd!希望能帮到你

原文 姿 料 这儿~

一、论文1:[MICCAI 2025] SimCroP: Radiograph Representation Learning with Similarity-driven Cross-granularity Pre-training

方法:

  • 本文提出了一个多模态框架SimCroP。首先通过多模态掩码建模 (MIM)提取底层语义;接着利用相似性驱动对齐 (SA) 技术,自适应地选择与报告病理句子具有最高相关性的三维图像块,将文本拉近相应的视觉子区域空间。

  • 随后采用跨粒度融合设计,聚合实例级与词-块级别的特征重建报告。模型整体优化的核心损失函数如下:

创新点:

  • 无需人工定位标注的自适应对齐:巧妙借助自动挖掘"报告句子"与"图像切块"的高置信度关联,成功克服了3D CT医学图像复杂的空间稀疏性问题。

  • 层级特征融合机制:系统将局部精细解剖结构的特征(词-块级)和整体视角(实例级池化)融为一体,显著提升了多尺度病灶分类与分割的能力。

  • 代码链接:https://github.com/ToniChopp/SimCroP

  • 论文链接:https://arxiv.org/pdf/2509.08311

二、论文2:[ICLR 2025] LARGE-SCALE AND FINE-GRAINED VISION-LANGUAGE PRE-TRAINING FOR ENHANCED CT IMAGE UNDERSTANDING

方法:

  • 本研究构建了细粒度视觉-语言模型 (fVLM) 。将CT图像分割并与医疗"发现"和"印象"文本同时解构到具体的器官/解剖学层级,进行解剖部位的局部对比预训练。

  • 为了解决同一批次遇到同种疾病导致的"假阴性"冲突,运用了由正常及异常样本引导的双重假阴性减少机制,并使用协同教学通过另一模型预测的概率向量来动态校正对齐目标:

创新点:

  • 解剖层级特征精细对齐:彻底摒弃了主流的"整图-全篇报告"粗放匹配方案,极大地减少了医学多模态学习中的特征错位,提升了诊断可解释性。

  • 独创的双重假阴性消除与海量数据验证 :自建并扩展了史上最大规模的CT分析数据集(MedVL-CT69K),配合创新的动态标签校正策略,全面刷新了54项重要疾病分类的零样本 (Zero-shot) 预测新纪录。

  • 代码链接:https://github.com/alibaba-damo-academy/fvlm

  • 论文链接:https://arxiv.org/pdf/2501.14548

相关推荐
TechWayfarer14 小时前
AI大模型时代:IP数据云如何适配智能体场景需求
开发语言·人工智能·python·网络协议·tcp/ip·langchain
闵孚龙14 小时前
Qwen3.7-Max深度解析:智能体Agent、AI编程、MCP工作流、跨框架泛化与百炼API,一次讲透国产大模型新前沿
人工智能·算法·架构·ai编程
学术小白人14 小时前
【检索通知】IEAS 2025、PSGAI 2025、SPIC2025 、AIBIEC 2025、AISNS2026等数个会议已检索
大数据·人工智能·microsoft·数字能源
jianwuhuang8214 小时前
豆包输出word
人工智能·ai·chatgpt·word·deepseek·ai导出鸭
小白|14 小时前
hccl:昇腾集合通信库架构深度实践
人工智能·yolo·目标检测
qingfeng1541514 小时前
企业微信消息监听实战:如何实时接收客户消息回调?
人工智能·python·自动化·企业微信
cui178756814 小时前
矩阵拼团 + 复购拼团:新零售最稳的复购模式,规则简单
大数据·人工智能·设计模式·零售
AI搅拌机14 小时前
告别字幕与水印:LTX 2.3工作流,一键高效清除,附详细使用方法。
人工智能
淘矿人15 小时前
【AI大模型】AI 大模型推理平台完整测评:8 家主流聚合服务对比分析
人工智能·sql·gpt·学习·github·php
端平入洛15 小时前
迁移学习的"最小调参模块"
人工智能·深度学习