《图像分割简史》

经典医学图像分割模型

  • [一、🏛️ CNN 黄金时代:从开天辟地到登峰造极 (2015 - 2021)](#一、🏛️ CNN 黄金时代:从开天辟地到登峰造极 (2015 - 2021))
    • [1. 【2014.11】语义分割的起源:FCN](#1. 【2014.11】语义分割的起源:FCN)
    • [2. 【2015.05】医学分割的基石:U-Net](#2. 【2015.05】医学分割的基石:U-Net)
    • [3. 【2015.11】效率与显存的平衡:SegNet](#3. 【2015.11】效率与显存的平衡:SegNet)
    • [4. 【2015.12】骨干网络的革命:ResNet](#4. 【2015.12】骨干网络的革命:ResNet)
    • [5. 【2016.01】维度的跨越:V-Net (与 3D U-Net)](#5. 【2016.01】维度的跨越:V-Net (与 3D U-Net))
    • [6. 【2016.12】多尺度的特征融合:FPN](#6. 【2016.12】多尺度的特征融合:FPN)
    • [7. 【2016.12】聚合上下文信息:PSPNet](#7. 【2016.12】聚合上下文信息:PSPNet)
    • [8. 【2017.03】实例分割的里程碑:Mask R-CNN](#8. 【2017.03】实例分割的里程碑:Mask R-CNN)
    • [9. 【2015-2018】语义分割的标杆:DeepLab 系列 (v1~v3+)](#9. 【2015-2018】语义分割的标杆:DeepLab 系列 (v1~v3+))
    • [10. 【2018.07】结构的极致精修:U-Net++](#10. 【2018.07】结构的极致精修:U-Net++)
    • [11. 【2018.04】门控机制的引入:Attention U-Net](#11. 【2018.04】门控机制的引入:Attention U-Net)
    • [12. 【2019.08】永远的高分辨率:HRNet](#12. 【2019.08】永远的高分辨率:HRNet)
    • [13. 【2019.01】全景分割的统一:Panoptic FPN](#13. 【2019.01】全景分割的统一:Panoptic FPN)
    • [14. 【2021.12】CNN 时代的终结者:nnU-Net](#14. 【2021.12】CNN 时代的终结者:nnU-Net)
  • [二、🌪️ Transformer 时代:全局感知的觉醒与架构重构 (2017 - 2022)](#二、🌪️ Transformer 时代:全局感知的觉醒与架构重构 (2017 - 2022))
    • 第一部分:理论基石 (Foundations)
      • [1. 【2017.06】万物之源:Transformer ------ Attention Is All You Need](#1. 【2017.06】万物之源:Transformer —— Attention Is All You Need)
      • [2. 【2020.10】视觉的跨界:ViT(Vision Transformer)](#2. 【2020.10】视觉的跨界:ViT(Vision Transformer))
      • [3. 【2021.03】骨干的进化:Swin Transformer(Shifted Windows Transformer)](#3. 【2021.03】骨干的进化:Swin Transformer(Shifted Windows Transformer))
    • [第二部分:2D 分割革新 (2D Segmentation)](#第二部分:2D 分割革新 (2D Segmentation))
      • [1. 【2020.12】分割的 ViT 时刻:SETR(SEgmentation TRansformer)](#1. 【2020.12】分割的 ViT 时刻:SETR(SEgmentation TRansformer))
      • [2. 【2021.02】混合架构先驱:TransUNet(Transformers and U-Net)](#2. 【2021.02】混合架构先驱:TransUNet(Transformers and U-Net))
      • [3. 【2021.05】纯 Transformer 架构:Swin-Unet(Shifted Window Transformer Unet)](#3. 【2021.05】纯 Transformer 架构:Swin-Unet(Shifted Window Transformer Unet))
      • [4. 【2021.05】高效分割之王:SegFormer(Segmentation Transformer)](#4. 【2021.05】高效分割之王:SegFormer(Segmentation Transformer))
    • [第二部分:3D 医学霸主 (3D Medical Segmentation)](#第二部分:3D 医学霸主 (3D Medical Segmentation))
      • [1. 【2021.03】3D 医学分割基石:UNETR(UNEt TRansformers)](#1. 【2021.03】3D 医学分割基石:UNETR(UNEt TRansformers))
      • [2. 【2022.01】3D 版 Swin 的进化:Swin-UNETR(Swin UNEt TRansformers)](#2. 【2022.01】3D 版 Swin 的进化:Swin-UNETR(Swin UNEt TRansformers))
  • [三、🌌 大模型纪元:提示驱动与通用分割的奇点时刻 (2023 - 至今)](#三、🌌 大模型纪元:提示驱动与通用分割的奇点时刻 (2023 - 至今))
    • [1. 【2023.04】视觉分割的 GPT 时刻:SAM(Segment Anything Model)](#1. 【2023.04】视觉分割的 GPT 时刻:SAM(Segment Anything Model))
    • [2. 【2023.06】实时版的 SAM:FastSAM](#2. 【2023.06】实时版的 SAM:FastSAM)
    • [3. 【2023.04】医学领域的通用基座:MedSAM(Segment anything in medical images)](#3. 【2023.04】医学领域的通用基座:MedSAM(Segment anything in medical images))
    • [4. 【2024.07】统一视频与图像的进化:SAM 2](#4. 【2024.07】统一视频与图像的进化:SAM 2)
    • [5. 【2025.11】全能感知的集大成者:SAM 3](#5. 【2025.11】全能感知的集大成者:SAM 3)
    • [6. 【2025.11】从像素到体素的跨越:SAM 3D](#6. 【2025.11】从像素到体素的跨越:SAM 3D)

一、🏛️ CNN 黄金时代:从开天辟地到登峰造极 (2015 - 2021)

【PyTorch项目实战】语义分割:U-Net、UNet++、U2Net

1. 【2014.11】语义分割的起源:FCN

这是深度学习在图像分割领域的开山之作,它让计算机视觉从"识别图片里有什么"跨越到了"识别像素点是什么"。

一句话核心:FCN 是语义分割的鼻祖,它创造性地将分类网络(如 VGG)中的全连接层替换为卷积层,首次实现了任意尺寸图像的端到端像素级预测,奠定了现代分割模型的基础。

2. 【2015.05】医学分割的基石:U-Net

无论过去多少年,U-Net 依然是医学影像分析领域引用率最高、最无法绕过的模型。

一句话核心:U-Net 被誉为医学分割的"圣经",其标志性的对称"编码器-解码器"结构与跳跃连接(Skip Connections),完美解决了医学图像数据量少、边缘定位难的问题,是后续所有 Transformer 混合架构模仿的对象。

3. 【2015.11】效率与显存的平衡:SegNet

在显卡资源匮乏的早期,SegNet 提供了一种极其优雅的解决方案,主要用于自动驾驶场景。

一句话核心:SegNet 的核心创新在于引入"最大池化索引"来记录位置进行上采样,这大幅减少了显存占用并保留了边缘信息,是早期追求计算效率与边缘精度的代表性工作。

4. 【2015.12】骨干网络的革命:ResNet

虽然 ResNet 最初是为图像分类设计的,但它的出现彻底改变了分割模型的设计模式。几乎所有现代分割模型(DeepLab, PSPNet, U-Net变体)都使用 ResNet 作为"编码器"来提取特征。

一句话核心:ResNet 通过引入"残差连接 (Residual Connection)"解决了深层网络梯度消失和退化的问题,让网络深度从十几层跃升至上百层,成为了计算机视觉领域(包括分割任务)最通用的特征提取骨干网络。

5. 【2016.01】维度的跨越:V-Net (与 3D U-Net)

在医学影像中,医生通常需要查看 3D 的 CT 或 MRI 数据。V-Net 和 3D U-Net 几乎同时期提出,将 2D 卷积扩展为 3D,实现了真正的"体素级"分割。

一句话核心:V-Net 不仅将 U-Net 架构扩展至 3D 领域以处理体积数据,更重要的是提出了著名的 Dice Loss 损失函数,有效解决了医学图像中背景极大、病灶极小的正负样本极度不平衡问题。

6. 【2016.12】多尺度的特征融合:FPN

在分割任务中,如何同时处理"大物体"和"小物体"一直是个难题。FPN 给出了一个教科书般的解决方案,成为了 Mask R-CNN 等模型的标配组件。

一句话核心:FPN 通过构建"自顶向下"的路径和横向连接,将深层的高语义特征与浅层的高分辨率特征融合,让模型在不同尺度上都能拥有强大的语义感知能力,解决了多尺度目标检测与分割的难题。

7. 【2016.12】聚合上下文信息:PSPNet

在语义分割中,"水"和"天空"、"床"和"被子"往往容易混淆。PSPNet 告诉我们,看清局部必须先看懂全局(Global Context)。

  • 中文主题:PSPNet:金字塔场景解析网络
  • 论文题目:Pyramid Scene Parsing Network
    • 作者团队:Hengshuang Zhao (赵恒爽), Jianping Shi, Jiaya Jia (贾佳亚), et al.
    • 所属机构:CUHK (香港中文大学) & SenseTime (商汤科技)
    • 发表时间/会议:2016年12月提交,CVPR 2017 (Winner of ImageNet Scene Parsing Challenge 2016)
    • 源码地址:https://github.com/hszhao/PSPNet

一句话核心:PSPNet 提出了"金字塔池化模块 (Pyramid Pooling Module)",通过以不同比例聚合背景上下文信息,极大地增强了模型对复杂场景的理解能力,有效解决了物体外观相似导致的混淆问题。

8. 【2017.03】实例分割的里程碑:Mask R-CNN

何恺明大神的又一力作,它不仅能框出物体,还能精确地描绘出物体的轮廓,是全景分割的前奏。

  • 中文主题:Mask R-CNN:目标检测与实例分割的统一框架
  • 论文题目:Mask R-CNN
    • 作者团队:Kaiming He (何恺明), Georgia Gkioxari, Piotr Dollár, Ross Girshick
    • 所属机构:Facebook AI Research (FAIR)
    • 发表时间/会议:2017年3月提交,ICCV 2017 (Best Paper)
    • 源码地址:https://github.com/facebookresearch/detectron2 (官方继任者 Detectron2)

一句话核心:Mask R-CNN 在 Faster R-CNN 的基础上增加了一个并行的 Mask 分支,并提出了 RoI Align 层来消除 ROI Pooling 带来的量化误差,完美统一了目标检测与实例分割任务,实现了像素级的精准定位。

9. 【2015-2018】语义分割的标杆:DeepLab 系列 (v1~v3+)

这是 Google 团队对语义分割长达几年的探索,其中 DeepLab v3+ 被视为传统 CNN 分割模型的巅峰之作。

一句话核心:DeepLab 系列的核心贡献在于引入 空洞卷积 (Atrous Conv)ASPP (空洞空间金字塔池化),在不降低图像分辨率的前提下大幅扩大了感受野,v3+ 更是结合了编解码器结构,成为了语义分割领域长期霸榜的精度标杆。

10. 【2018.07】结构的极致精修:U-Net++

U-Net++ 认为原版 U-Net 的长连接(Skip Connection)直接将编码器和解码器特征拼接过于粗糙,因此设计了一种"套娃"式的密集连接结构。

一句话核心:U-Net++ 通过设计密集嵌套的跳跃连接(Nested Skip Pathways),填补了编码器与解码器特征图在语义层级上的巨大鸿沟,挖掘了 U-Net 架构的剩余潜力,显著提升了医学图像分割的精度。

11. 【2018.04】门控机制的引入:Attention U-Net

在 Transformer 尚未统治视觉界之前,Attention U-Net 率先尝试在 CNN 中引入"注意力"概念,通过数学门控来聚焦重点。

一句话核心:Attention U-Net 在 CNN 解码器中巧妙地引入了门控注意力机制(Attention Gate),在不增加额外计算开销的前提下,让模型学会自动抑制背景噪声,聚焦于形状不规则的病灶区域。

12. 【2019.08】永远的高分辨率:HRNet

传统网络(如 ResNet, U-Net)都是先缩小分辨率再放大,这不可避免地导致空间信息丢失。HRNet 打破了这一惯例。

一句话核心:HRNet 摒弃了传统先下采样后上采样的"串联"思路,而是让高分辨率特征流贯穿始终,并多次融合低分辨率特征,显著提升了分割任务对空间位置的精准度(Pixel-level Precision)。

13. 【2019.01】全景分割的统一:Panoptic FPN

它标志着分割任务的新阶段------全景分割(Panoptic Segmentation),即同时搞定"数人头"(实例分割)和"刷墙面"(语义分割)。

一句话核心:Panoptic FPN 结合了语义分割(FCN 分支)和实例分割(Mask R-CNN 分支)的思路,利用共享的 FPN 特征,统一了背景(Stuff)和前景物体(Thing)的分割任务,定义了全景分割的标准基线。

14. 【2021.12】CNN 时代的终结者:nnU-Net

这篇论文是对过去几年"魔改模型结构"风气的一次降维打击。它告诉大家:与其改模型,不如改数据处理。

一句话核心:nnU-Net 是 CNN 时代的最终答案,它本质上不是一个新的网络架构,而是一套极致的"自适应训练框架",证明了在医学分割中,自动化的数据预处理、重采样和训练策略比单纯魔改网络结构重要得多。

二、🌪️ Transformer 时代:全局感知的觉醒与架构重构 (2017 - 2022)

核心突破:打破 CNN 局部感受野限制,利用 Self-Attention 捕捉全局长距离依赖。

第一部分:理论基石 (Foundations)

1. 【2017.06】万物之源:Transformer ------ Attention Is All You Need

一句话核心:Transformer 是深度学习史上的分水岭,它摒弃了传统的 RNN 和 CNN 循环/卷积结构,提出"Attention Is All You Need",完全基于 Self-Attention(自注意力)机制,成为了后来 BERT、GPT 以及 ViT 等万物大模型的共同基石。

2. 【2020.10】视觉的跨界:ViT(Vision Transformer)

一句话核心:ViT 是计算机视觉领域的一个里程碑,它打破了 CNN 在图像识别领域的垄断地位,直接把 NLP 中的 Transformer 架构搬到了图像上。

简单来说:CNN 是像拿着放大镜一点点扫描图片;ViT 是把图片切成碎片,然后像拼图一样,通过分析碎片之间的关系来理解整张图。

模型概述:我们将图像分割成固定大小的图像块,对每个图像块进行线性嵌入,添加位置嵌入,并将得到的向量序列输入到标准的Transformer编码器中。为了进行分类,我们采用标准方法,在序列中添加一个额外的可学习的"分类标记"。

3. 【2021.03】骨干的进化:Swin Transformer(Shifted Windows Transformer)

一句话核心:Swin Transformer 是 ViT 的 "工业级" 进化版,它通过引入 "滑动窗口 (Shifted Windows)" 机制和类似 CNN 的层级结构,大幅降低了计算复杂度,一举拿下了 ICCV 2021 最佳论文奖,成为了各种视觉任务(分类、检测、分割)的首选骨干网络。

第二部分:2D 分割革新 (2D Segmentation)

1. 【2020.12】分割的 ViT 时刻:SETR(SEgmentation TRansformer)

这是将 ViT 真正用于分割的开山鼻祖(自然图像领域),地位相当于 CNN 中的 FCN。

一句话核心:SETR 第一次抛弃了 CNN 编码器,直接用纯 ViT 提取特征,证明了把图片像素拉直成序列(Sequence),依然可以做精细的语义分割,是 TransUNet 等后续工作的灵感来源之一。

2. 【2021.02】混合架构先驱:TransUNet(Transformers and U-Net)

一句话核心:TransUNet 是混合架构(Hybrid Architecture)的先驱,它将 ViT 塞进了 U-Net 的"瓶颈层"作为编码器,既保留了 CNN 提取局部细节的能力,又利用 Transformer 捕捉到了医学图像中至关重要的长距离依赖(全局上下文)。

3. 【2021.05】纯 Transformer 架构:Swin-Unet(Shifted Window Transformer Unet)

【PyTorch项目实战】Swin-Unet:用于医学图像分割的类Unet纯Transformer模型

一句话核心:Swin-Unet 是首个专为医学图像分割设计的"纯 Transformer" U-Net 架构,它完全剔除了卷积神经网络 (CNN),利用 Swin Transformer 模块构建了双臂 U 型结构,证明了纯 Transformer 在医学密集预测任务上也能超越传统 CNN。

4. 【2021.05】高效分割之王:SegFormer(Segmentation Transformer)

如果说 Swin Transformer 是为了刷分,SegFormer 就是为了落地。它在医学分割中也极受欢迎。

一句话核心:SegFormer 移除了 Transformer 中繁重的位置编码(Positional Encoding),提出了轻量级的 MLP 解码器,在速度和精度之间取得了完美平衡,是目前工业界和医学轻量化部署的首选架构。

第二部分:3D 医学霸主 (3D Medical Segmentation)

1. 【2021.03】3D 医学分割基石:UNETR(UNEt TRansformers)

TransUNet 解决了 2D 切片,而 UNETR 解决了医学领域最头疼的 3D 体数据 (CT/MRI) 处理问题。

一句话核心:UNETR 是 3D 医学分割的里程碑,它直接将 3D 体素(Voxel)切块输入纯 Transformer 编码器,解决了 CNN 在 3D 空间中感受野有限的问题,成为处理立体器官分割的标准基线。

2. 【2022.01】3D 版 Swin 的进化:Swin-UNETR(Swin UNEt TRansformers)

这是 UNETR 的升级版,也是目前医学影像竞赛(如 BTCV)中的常客。

一句话核心:Swin-UNETR 将 Swin Transformer 的"滑动窗口"机制引入 3D 分割,相比初代 UNETR,它计算量更小、收敛更快、精度更高,是目前 3D 医学分割最强的 Transformer 基线之一。

三、🌌 大模型纪元:提示驱动与通用分割的奇点时刻 (2023 - 至今)

【PyTorch项目实战】SAM(Segment Anything Model)
【PyTorch项目实战】SAM3:概念分割 + 3D重建(模型 + 人体)
【PyTorch项目实战】FastSAM(快速分割一切)

核心突破:从"特定任务训练"转向"预训练基础模型 + 提示词交互"。

1. 【2023.04】视觉分割的 GPT 时刻:SAM(Segment Anything Model)

这是计算机视觉领域的"核弹级"工作,Meta 用 11 亿个掩码(Mask)暴力美学地解决了"分割一切"的问题。

一句话核心:SAM 是首个图像分割的基础模型 (Foundation Model),它基于 ViT 架构,利用海量数据 (SA-1B) 训练出了强大的零样本泛化能力,允许用户通过点、框或文本提示 (Prompt) 实时分割任何物体。

2. 【2023.06】实时版的 SAM:FastSAM

SAM 虽然强但太慢(ViT 计算重),FastSAM 用工业界最成熟的 YOLO 技术实现了"既要快又要好"。

一句话核心:FastSAM 摒弃了沉重的 Transformer,利用 YOLOv8-seg (CNN) 将任务解耦为"全实例分割 + 提示匹配",在保持与 SAM 相当性能的同时,推理速度提升了 50 倍,达到了毫秒级实时水平。

3. 【2023.04】医学领域的通用基座:MedSAM(Segment anything in medical images)

SAM 在自然图像上很强,但在医学图像(灰度、低对比度)上表现不佳。MedSAM 是第一个填补这一鸿沟的通用医学模型。

  • 中文主题:MedSAM:医学图像中的"分割一切"
  • 论文题目:Segment Anything in Medical Images
    • 作者团队:Jun Ma (马军), Bo Wang (王博), et al.
    • 所属机构:University of Toronto (多伦多大学) & UHN
    • 发表时间/会议:2023年4月发布,Nature Communications (2024) 接收
    • 源码地址:https://github.com/bowang-lab/MedSAM

一句话核心:MedSAM 是首个专门针对医学图像的通用分割基础模型,它收集了百万级多模态医学数据对 SAM 进行全参数微调,结束了医学领域"一个器官训练一个专用模型"的碎片化时代。

4. 【2024.07】统一视频与图像的进化:SAM 2

SAM 解决了静态图像的分割,而 SAM 2 引入了"时间"维度,解决了视频中物体遮挡、形变和重出现的连续分割难题。

一句话核心:SAM 2 是首个统一图像与视频分割的基础模型,它引入了"流式记忆机制 (Streaming Memory)",不仅继承了 SAM 的零样本图像分割能力,更能对视频中的目标进行持续、连贯的追踪与分割,即使目标短暂消失也能重新找回。

5. 【2025.11】全能感知的集大成者:SAM 3

这是 SAM 家族从"几何分割"迈向"语义理解"的关键一步,不再仅仅把物体切出来,还能理解它是什么(开放词汇)。

一句话核心:SAM 3 是视觉感知的集大成者,它彻底打破了检测、分割与追踪的任务边界,并引入了强大的"开放词汇 (Open-Vocabulary)"能力,无需微调即可识别和分割极其罕见或抽象的概念,实现了真正的通用视觉理解。

6. 【2025.11】从像素到体素的跨越:SAM 3D

与 SAM 3 同期发布,标志着 Meta 的视觉大模型正式进军三维物理世界,解决了从 2D 照片生成 3D 资产的难题。

一句话核心:SAM 3D 实现了从"看懂图片"到"构建世界"的跨越,它能够仅凭单张 2D 图像或稀疏视角,直接重建并分割出具有完整几何结构和纹理的 3D 物体(SAM 3D Objects)甚至人体(SAM 3D Body),极大降低了 3D 内容创作的门槛。

相关推荐
DS随心转小程序2 小时前
deepseek导出word
人工智能·chatgpt·edge·word·deepseek·ds随心转
hsg772 小时前
本地部署开源数字人模型简介
人工智能·开源
HZjiangzi2 小时前
手机外壳平面度用什么设备检测快?SIMSCAN精细模式+自动报告方案推荐
人工智能·科技·制造·三维扫描仪
全栈技术负责人2 小时前
前端团队 AI Core Workflow:从心法到落地
前端·人工智能·状态模式
KmjJgWeb2 小时前
基于YOLOv26的数字体温计检测与温度读取系统_2
人工智能·yolo·目标跟踪
DS随心转小程序2 小时前
AI公式不乱码
人工智能·pdf·deepseek·ds随心转
李昊哲小课2 小时前
机器学习核心概念与经典算法全解析
人工智能·算法·机器学习·scikit-learn
s石有八九2 小时前
PDF/文档LLM作业批改:2025年研究现状、技术进展与研究空白
人工智能·python·pdf·教育·ai教育·作业批改
慧都小项3 小时前
办公文档平台ONLYOFFICE如何使用AI进行金融图表的描述识别
人工智能·金融