CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

alfred_torres2025-06-11 12:26

CVPR 2025 | MIMO：支持视觉指代和像素对齐的医学视觉语言模型

论文信息

标题：MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output
作者：Yanyuan Chen, Dexuan Xu, Yu Huang, 等
单位：北京大学软件与微电子学院、计算机科学学院、第六医院等
收录会议：CVPR 2025
论文链接 ：GitHub项目地址

背景介绍

近年来，医学视觉语言模型（MVLMs）在医学图像问答等任务中展现出巨大潜力。然而，现有模型大多只能处理文本指令，缺乏对图像中具体视觉区域的直接理解，输出也仅限于文本，难以与图像中的关键区域建立精准联系。

创新点概述

本文提出 MIMO，首个支持"视觉指代多模态输入"和"像素级对齐多模态输出"的医学视觉语言模型。其主要创新包括：

视觉指代输入：支持将文本指令与图像中的点、框等视觉提示共同输入，实现对医学图像关键区域的精准提问。
像素对齐输出：模型不仅输出文本答案，还能将文本中的医学实体与图像中的具体分割区域一一对应，实现"所见即所得"。
大规模多模态数据集：自建 MIMOSeg 数据集，包含 89.5 万条高质量样本，覆盖 CT、X 光等 8 种医学图像模态，支持多种复杂任务场景。

方法框架

MIMO 模型主要由以下几个部分组成：

视觉编码器：采用 CLIP ViT-H/14 提取图像特征。
视觉提示编码器：对点、框等提示进行编码，辅助模型理解用户关注区域。
多模态输入对齐器：融合文本、图像、视觉提示等多模态信息，实现高效跨模态对齐。
大语言模型：基于 Vicuna，负责文本生成，并通过特殊标记将关键医学实体与分割掩码关联。
分割解码器：借助 SAM（Segment Anything Model）等分割模型，输出实体对应的像素级掩码。

数据集构建

MIMOSeg 包含四大任务视角：

文本指导分割：仅靠文本指令分割目标区域。
视觉提示感知：结合视觉提示（点/框）和文本指令分割目标区域。
分割对齐问答：在问答中输出与实体对应的分割掩码。
视觉提示辅助问答：结合视觉提示和问答，输出答案及分割区域。

覆盖 CT、X 光、眼底、病理等丰富数据，极大提升模型泛化能力。

实验结果

在 MIMOSeg 和多个公开医学数据集上的实验表明，MIMO 在分割准确率、问答质量等方面均大幅优于现有主流模型（如 SAM、LLaVA-Med、HuatuoGPT-Vision 等）。
消融实验进一步验证了多模态输入对齐器等关键模块的有效性。

总结与展望

MIMO 是首个实现 视觉指代+像素落地 能力的医学视觉语言模型，极大提升了医学 AI 对图像及文本复杂关系的理解与表达能力。未来，该模型有望应用于智能辅助诊断、影像报告生成等医学场景，推动多模态医学 AI 的发展。

项目地址 ：https://github.com/pkusixspace/MIMO

欢迎关注，获取更多前沿 AI 论文与解读！

上一篇：C# 表达式和运算符(求值顺序)

下一篇：相机camera开发之差异对比核查二：测试机和对比机的差异提交对比

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04GitLab 零基础入门指南：从安装到项目管理全流程 05Linux下V2Ray安装配置指南 06NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 07在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）08Labelme从安装到标注：零基础完整指南 092025软件测试面试八股文（含答案+文档）10一文了解国产算子编程语言 TileLang，TileLang 对国产开源生态的影响与启示