《图像分割简史》

经典医学图像分割模型

[一、🏛️ CNN 黄金时代：从开天辟地到登峰造极 (2015 - 2021)](#一、🏛️ CNN 黄金时代：从开天辟地到登峰造极 (2015 - 2021))
- [1. 【2014.11】语义分割的起源：FCN](#1. 【2014.11】语义分割的起源：FCN)
- [2. 【2015.05】医学分割的基石：U-Net](#2. 【2015.05】医学分割的基石：U-Net)
- [3. 【2015.11】效率与显存的平衡：SegNet](#3. 【2015.11】效率与显存的平衡：SegNet)
- [4. 【2015.12】骨干网络的革命：ResNet](#4. 【2015.12】骨干网络的革命：ResNet)
- [5. 【2016.01】维度的跨越：V-Net (与 3D U-Net)](#5. 【2016.01】维度的跨越：V-Net (与 3D U-Net))
- [6. 【2016.12】多尺度的特征融合：FPN](#6. 【2016.12】多尺度的特征融合：FPN)
- [7. 【2016.12】聚合上下文信息：PSPNet](#7. 【2016.12】聚合上下文信息：PSPNet)
- [8. 【2017.03】实例分割的里程碑：Mask R-CNN](#8. 【2017.03】实例分割的里程碑：Mask R-CNN)
- [9. 【2015-2018】语义分割的标杆：DeepLab 系列 (v1~v3+)](#9. 【2015-2018】语义分割的标杆：DeepLab 系列 (v1~v3+))
- [10. 【2018.07】结构的极致精修：U-Net++](#10. 【2018.07】结构的极致精修：U-Net++)
- [11. 【2018.04】门控机制的引入：Attention U-Net](#11. 【2018.04】门控机制的引入：Attention U-Net)
- [12. 【2019.08】永远的高分辨率：HRNet](#12. 【2019.08】永远的高分辨率：HRNet)
- [13. 【2019.01】全景分割的统一：Panoptic FPN](#13. 【2019.01】全景分割的统一：Panoptic FPN)
- [14. 【2021.12】CNN 时代的终结者：nnU-Net](#14. 【2021.12】CNN 时代的终结者：nnU-Net)
[二、🌪️ Transformer 时代：全局感知的觉醒与架构重构 (2017 - 2022)](#二、🌪️ Transformer 时代：全局感知的觉醒与架构重构 (2017 - 2022))
- 第一部分：理论基石 (Foundations)
- - [1. 【2017.06】万物之源：Transformer ------ Attention Is All You Need](#1. 【2017.06】万物之源：Transformer —— Attention Is All You Need)
  - [2. 【2020.10】视觉的跨界：ViT（Vision Transformer）](#2. 【2020.10】视觉的跨界：ViT（Vision Transformer）)
  - [3. 【2021.03】骨干的进化：Swin Transformer（Shifted Windows Transformer）](#3. 【2021.03】骨干的进化：Swin Transformer（Shifted Windows Transformer）)
- [第二部分：2D 分割革新 (2D Segmentation)](#第二部分：2D 分割革新 (2D Segmentation))
- - [1. 【2020.12】分割的 ViT 时刻：SETR（SEgmentation TRansformer）](#1. 【2020.12】分割的 ViT 时刻：SETR（SEgmentation TRansformer）)
  - [2. 【2021.02】混合架构先驱：TransUNet（Transformers and U-Net）](#2. 【2021.02】混合架构先驱：TransUNet（Transformers and U-Net）)
  - [3. 【2021.05】纯 Transformer 架构：Swin-Unet（Shifted Window Transformer Unet）](#3. 【2021.05】纯 Transformer 架构：Swin-Unet（Shifted Window Transformer Unet）)
  - [4. 【2021.05】高效分割之王：SegFormer（Segmentation Transformer）](#4. 【2021.05】高效分割之王：SegFormer（Segmentation Transformer）)
- [第二部分：3D 医学霸主 (3D Medical Segmentation)](#第二部分：3D 医学霸主 (3D Medical Segmentation))
- - [1. 【2021.03】3D 医学分割基石：UNETR（UNEt TRansformers）](#1. 【2021.03】3D 医学分割基石：UNETR（UNEt TRansformers）)
  - [2. 【2022.01】3D 版 Swin 的进化：Swin-UNETR（Swin UNEt TRansformers）](#2. 【2022.01】3D 版 Swin 的进化：Swin-UNETR（Swin UNEt TRansformers）)
[三、🌌 大模型纪元：提示驱动与通用分割的奇点时刻 (2023 - 至今)](#三、🌌 大模型纪元：提示驱动与通用分割的奇点时刻 (2023 - 至今))
- [1. 【2023.04】视觉分割的 GPT 时刻：SAM（Segment Anything Model）](#1. 【2023.04】视觉分割的 GPT 时刻：SAM（Segment Anything Model）)
- [2. 【2023.06】实时版的 SAM：FastSAM](#2. 【2023.06】实时版的 SAM：FastSAM)
- [3. 【2023.04】医学领域的通用基座：MedSAM（Segment anything in medical images）](#3. 【2023.04】医学领域的通用基座：MedSAM（Segment anything in medical images）)
- [4. 【2024.07】统一视频与图像的进化：SAM 2](#4. 【2024.07】统一视频与图像的进化：SAM 2)
- [5. 【2025.11】全能感知的集大成者：SAM 3](#5. 【2025.11】全能感知的集大成者：SAM 3)
- [6. 【2025.11】从像素到体素的跨越：SAM 3D](#6. 【2025.11】从像素到体素的跨越：SAM 3D)

一、🏛️ CNN 黄金时代：从开天辟地到登峰造极 (2015 - 2021)

1. 【2014.11】语义分割的起源：FCN

这是深度学习在图像分割领域的开山之作，它让计算机视觉从"识别图片里有什么"跨越到了"识别像素点是什么"。

中文主题：FCN：全卷积网络用于语义分割

论文题目：Fully Convolutional Networks for Semantic Segmentation

作者团队：Jonathan Long, Evan Shelhamer, Trevor Darrell

所属机构：UC Berkeley (加州大学伯克利分校)

发表时间/会议：2014年提交，CVPR 2015

源码地址：https://github.com/shelhamer/fcn.berkeleyvision (原始Caffe版)

一句话核心：FCN 是语义分割的鼻祖，它创造性地将分类网络（如 VGG）中的全连接层替换为卷积层，首次实现了任意尺寸图像的端到端像素级预测，奠定了现代分割模型的基础。

2. 【2015.05】医学分割的基石：U-Net

无论过去多少年，U-Net 依然是医学影像分析领域引用率最高、最无法绕过的模型。

中文主题：U-Net：用于生物医学图像分割的卷积网络

论文题目：U-Net: Convolutional Networks for Biomedical Image Segmentation

作者团队：Olaf Ronneberger, Philipp Fischer, Thomas Brox

所属机构：University of Freiburg (弗莱堡大学)

发表时间/会议：2015年5月提交，MICCAI 2015

源码地址：https://github.com/milesial/Pytorch-UNet (目前最流行的复现版)

一句话核心：U-Net 被誉为医学分割的"圣经"，其标志性的对称"编码器-解码器"结构与跳跃连接（Skip Connections），完美解决了医学图像数据量少、边缘定位难的问题，是后续所有 Transformer 混合架构模仿的对象。

3. 【2015.11】效率与显存的平衡：SegNet

在显卡资源匮乏的早期，SegNet 提供了一种极其优雅的解决方案，主要用于自动驾驶场景。

中文主题：SegNet：一种用于图像分割的深度卷积编码器-解码器架构

论文题目：SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

作者团队：Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla

所属机构：University of Cambridge (剑桥大学)

发表时间/会议：2015年提交，TPAMI 2017

源码地址：https://github.com/alexgkendall/SegNet-Tutorial

一句话核心：SegNet 的核心创新在于引入"最大池化索引"来记录位置进行上采样，这大幅减少了显存占用并保留了边缘信息，是早期追求计算效率与边缘精度的代表性工作。

4. 【2015.12】骨干网络的革命：ResNet

虽然 ResNet 最初是为图像分类设计的，但它的出现彻底改变了分割模型的设计模式。几乎所有现代分割模型（DeepLab, PSPNet, U-Net变体）都使用 ResNet 作为"编码器"来提取特征。

中文主题：ResNet：用于图像识别的深度残差学习

论文题目：Deep Residual Learning for Image Recognition

作者团队：Kaiming He (何恺明), Xiangyu Zhang, Shaoqing Ren, Jian Sun

所属机构：Microsoft Research Asia (MSRA) (微软亚洲研究院)

发表时间/会议：2015年12月提交，CVPR 2016 (Best Paper)

源码地址：https://github.com/pytorch/vision/blob/main/torchvision/models/resnet.py (Torchvision 官方实现)

一句话核心：ResNet 通过引入"残差连接 (Residual Connection)"解决了深层网络梯度消失和退化的问题，让网络深度从十几层跃升至上百层，成为了计算机视觉领域（包括分割任务）最通用的特征提取骨干网络。

5. 【2016.01】维度的跨越：V-Net (与 3D U-Net)

在医学影像中，医生通常需要查看 3D 的 CT 或 MRI 数据。V-Net 和 3D U-Net 几乎同时期提出，将 2D 卷积扩展为 3D，实现了真正的"体素级"分割。

中文主题：V-Net：用于三维医学图像分割的全卷积神经网络

论文题目：V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation

作者团队：Fausto Milletari, Nassir Navab, Seyed-Ahmad Ahmadi

所属机构：Technical University of Munich & Johns Hopkins University

发表时间/会议：2016年6月提交，3DV 2016

源码地址：https://github.com/mattmacy/vnet.pytorch (常用的 PyTorch 复现)

一句话核心：V-Net 不仅将 U-Net 架构扩展至 3D 领域以处理体积数据，更重要的是提出了著名的 Dice Loss 损失函数，有效解决了医学图像中背景极大、病灶极小的正负样本极度不平衡问题。

6. 【2016.12】多尺度的特征融合：FPN

在分割任务中，如何同时处理"大物体"和"小物体"一直是个难题。FPN 给出了一个教科书般的解决方案，成为了 Mask R-CNN 等模型的标配组件。

中文主题：FPN：用于目标检测的特征金字塔网络

论文题目：Feature Pyramid Networks for Object Detection

作者团队：Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, et al.

所属机构：Facebook AI Research (FAIR)

发表时间/会议：2016年12月提交，CVPR 2017

源码地址：https://github.com/facebookresearch/detectron2 (集成在 Detectron2 中)

一句话核心：FPN 通过构建"自顶向下"的路径和横向连接，将深层的高语义特征与浅层的高分辨率特征融合，让模型在不同尺度上都能拥有强大的语义感知能力，解决了多尺度目标检测与分割的难题。

7. 【2016.12】聚合上下文信息：PSPNet

在语义分割中，"水"和"天空"、"床"和"被子"往往容易混淆。PSPNet 告诉我们，看清局部必须先看懂全局（Global Context）。

中文主题：PSPNet：金字塔场景解析网络

论文题目：Pyramid Scene Parsing Network

作者团队：Hengshuang Zhao (赵恒爽), Jianping Shi, Jiaya Jia (贾佳亚), et al.

所属机构：CUHK (香港中文大学) & SenseTime (商汤科技)

发表时间/会议：2016年12月提交，CVPR 2017 (Winner of ImageNet Scene Parsing Challenge 2016)

源码地址：https://github.com/hszhao/PSPNet

一句话核心：PSPNet 提出了"金字塔池化模块 (Pyramid Pooling Module)"，通过以不同比例聚合背景上下文信息，极大地增强了模型对复杂场景的理解能力，有效解决了物体外观相似导致的混淆问题。

8. 【2017.03】实例分割的里程碑：Mask R-CNN

何恺明大神的又一力作，它不仅能框出物体，还能精确地描绘出物体的轮廓，是全景分割的前奏。

中文主题：Mask R-CNN：目标检测与实例分割的统一框架

论文题目：Mask R-CNN

作者团队：Kaiming He (何恺明), Georgia Gkioxari, Piotr Dollár, Ross Girshick

所属机构：Facebook AI Research (FAIR)

发表时间/会议：2017年3月提交，ICCV 2017 (Best Paper)

源码地址：https://github.com/facebookresearch/detectron2 (官方继任者 Detectron2)

一句话核心：Mask R-CNN 在 Faster R-CNN 的基础上增加了一个并行的 Mask 分支，并提出了 RoI Align 层来消除 ROI Pooling 带来的量化误差，完美统一了目标检测与实例分割任务，实现了像素级的精准定位。

9. 【2015-2018】语义分割的标杆：DeepLab 系列 (v1~v3+)

这是 Google 团队对语义分割长达几年的探索，其中 DeepLab v3+ 被视为传统 CNN 分割模型的巅峰之作。

中文主题：DeepLab v3+：空洞卷积与ASPP的集大成者

论文题目：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation (以最终版本 v3+ 为例)

作者团队：Liang-Chieh Chen, Yukun Zhu, George Papandreou, et al.

所属机构：Google Research

发表时间/会议：DeepLab v1 (ICLR 2015) -> v3+ (ECCV 2018)

源码地址：https://github.com/tensorflow/models/tree/master/research/deeplab

一句话核心：DeepLab 系列的核心贡献在于引入 空洞卷积 (Atrous Conv) 和 ASPP (空洞空间金字塔池化)，在不降低图像分辨率的前提下大幅扩大了感受野，v3+ 更是结合了编解码器结构，成为了语义分割领域长期霸榜的精度标杆。

10. 【2018.07】结构的极致精修：U-Net++

U-Net++ 认为原版 U-Net 的长连接（Skip Connection）直接将编码器和解码器特征拼接过于粗糙，因此设计了一种"套娃"式的密集连接结构。

中文主题：U-Net++：用于医学图像分割的嵌套 U-Net 架构

论文题目：U-Net++: A Nested U-Net Architecture for Medical Image Segmentation

作者团队：Zongwei Zhou, Nima Tajbakhsh, et al.

所属机构：Arizona State University (ASU) (亚利桑那州立大学)

发表时间/会议：2018年7月提交，MICCAI 2018

源码地址：https://github.com/MrGiovanni/UNetPlusPlus

一句话核心：U-Net++ 通过设计密集嵌套的跳跃连接（Nested Skip Pathways），填补了编码器与解码器特征图在语义层级上的巨大鸿沟，挖掘了 U-Net 架构的剩余潜力，显著提升了医学图像分割的精度。

11. 【2018.04】门控机制的引入：Attention U-Net

在 Transformer 尚未统治视觉界之前，Attention U-Net 率先尝试在 CNN 中引入"注意力"概念，通过数学门控来聚焦重点。

中文主题：Attention U-Net：学习在胰腺分割中关注哪里

论文题目：Attention U-Net: Learning Where to Look for the Pancreas

作者团队：Ozan Oktay, Jo Schlemper, et al.

所属机构：Imperial College London (帝国理工学院)

发表时间/会议：2018年4月提交，MIDL 2018

源码地址：https://github.com/ozan-oktay/Attention-Gated-Networks

一句话核心：Attention U-Net 在 CNN 解码器中巧妙地引入了门控注意力机制（Attention Gate），在不增加额外计算开销的前提下，让模型学会自动抑制背景噪声，聚焦于形状不规则的病灶区域。

12. 【2019.08】永远的高分辨率：HRNet

传统网络（如 ResNet, U-Net）都是先缩小分辨率再放大，这不可避免地导致空间信息丢失。HRNet 打破了这一惯例。

中文主题：HRNet：用于视觉识别的深度高分辨率表示学习

论文题目：Deep High-Resolution Representation Learning for Visual Recognition

作者团队：Jingdong Wang (王井东), Ke Sun, et al.

所属机构：Microsoft Research Asia (MSRA) (微软亚洲研究院)

发表时间/会议：2019年提交，CVPR 2019 / TPAMI

源码地址：https://github.com/HRNet/HRNet-Semantic-Segmentation

一句话核心：HRNet 摒弃了传统先下采样后上采样的"串联"思路，而是让高分辨率特征流贯穿始终，并多次融合低分辨率特征，显著提升了分割任务对空间位置的精准度（Pixel-level Precision）。

13. 【2019.01】全景分割的统一：Panoptic FPN

它标志着分割任务的新阶段------全景分割（Panoptic Segmentation），即同时搞定"数人头"（实例分割）和"刷墙面"（语义分割）。

中文主题：Panoptic FPN：全景特征金字塔网络

论文题目：Panoptic Feature Pyramid Networks

作者团队：Alexander Kirillov, Ross Girshick, Kaiming He (何恺明), et al.

所属机构：Facebook AI Research (FAIR)

发表时间/会议：2019年1月提交，CVPR 2019

源码地址：https://github.com/facebookresearch/detectron2

一句话核心：Panoptic FPN 结合了语义分割（FCN 分支）和实例分割（Mask R-CNN 分支）的思路，利用共享的 FPN 特征，统一了背景（Stuff）和前景物体（Thing）的分割任务，定义了全景分割的标准基线。

14. 【2021.12】CNN 时代的终结者：nnU-Net

这篇论文是对过去几年"魔改模型结构"风气的一次降维打击。它告诉大家：与其改模型，不如改数据处理。

中文主题：nnU-Net：一种基于深度学习的生物医学图像分割自配置方法

论文题目：nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation

作者团队：Fabian Isensee, Klaus H. Maier-Hein, et al.

所属机构：DKFZ (德国癌症研究中心)

发表时间/会议：2018年起霸榜比赛，Nature Methods 2021 正式发表

源码地址：https://github.com/MIC-DKFZ/nnUNet (工业级标准库)

一句话核心：nnU-Net 是 CNN 时代的最终答案，它本质上不是一个新的网络架构，而是一套极致的"自适应训练框架"，证明了在医学分割中，自动化的数据预处理、重采样和训练策略比单纯魔改网络结构重要得多。

二、🌪️ Transformer 时代：全局感知的觉醒与架构重构 (2017 - 2022)

核心突破：打破 CNN 局部感受野限制，利用 Self-Attention 捕捉全局长距离依赖。

第一部分：理论基石 (Foundations)

1. 【2017.06】万物之源：Transformer ------ Attention Is All You Need

中文主题：Transformer：彻底改变 NLP 的注意力机制架构

论文题目：Attention Is All You Need

作者团队：Ashish Vaswani, Noam Shazeer, Niki Parmar, et al. (著名的"Transformer 八子")

所属机构：Google Brain, Google Research

发表时间/会议：2017年6月提交，NeurIPS 2017 接收

源码地址：

官方 (TensorFlow/原始)：https://github.com/tensorflow/tensor2tensor

现代工业标准 (Hugging Face)：https://github.com/huggingface/transformers

代码逐行注解版 (哈佛大学 NLP 组 - 学习必看 )：http://nlp.seas.harvard.edu/annotated-transformer/

一句话核心：Transformer 是深度学习史上的分水岭，它摒弃了传统的 RNN 和 CNN 循环/卷积结构，提出"Attention Is All You Need"，完全基于 Self-Attention（自注意力）机制，成为了后来 BERT、GPT 以及 ViT 等万物大模型的共同基石。

2. 【2020.10】视觉的跨界：ViT（Vision Transformer）

中文主题：ViT：用于大规模图像识别的 Transformer

论文题目：An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

作者团队：Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, et al.

所属机构：Google Research, Brain Team (谷歌大脑)

发表时间/会议：2020年10月提交，ICLR 2021 (Oral) 接收

源码地址：

官方 (JAX)：https://github.com/google-research/vision_transformer

PyTorch版 (最常用)：https://github.com/lucidrains/vit-pytorch

一句话核心：ViT 是计算机视觉领域的一个里程碑，它打破了 CNN 在图像识别领域的垄断地位，直接把 NLP 中的 Transformer 架构搬到了图像上。

简单来说：CNN 是像拿着放大镜一点点扫描图片；ViT 是把图片切成碎片，然后像拼图一样，通过分析碎片之间的关系来理解整张图。

模型概述：我们将图像分割成固定大小的图像块，对每个图像块进行线性嵌入，添加位置嵌入，并将得到的向量序列输入到标准的Transformer编码器中。为了进行分类，我们采用标准方法，在序列中添加一个额外的可学习的"分类标记"。

3. 【2021.03】骨干的进化：Swin Transformer（Shifted Windows Transformer）

中文主题：Swin Transformer：基于滑动窗口的层级式视觉 Transformer

论文题目：Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

作者团队：Ze Liu, Yutong Lin, Yue Cao, Han Hu, et al.

所属机构：Microsoft Research Asia (MSRA) (微软亚洲研究院)

发表时间/会议：2021年3月提交，ICCV 2021 (Best Paper / 马尔奖)

源码地址：

官方 (PyTorch)：https://github.com/microsoft/Swin-Transformer

Timm集成版 (工业界最常用)：https://github.com/huggingface/pytorch-image-models

一句话核心：Swin Transformer 是 ViT 的 "工业级" 进化版，它通过引入 "滑动窗口 (Shifted Windows)" 机制和类似 CNN 的层级结构，大幅降低了计算复杂度，一举拿下了 ICCV 2021 最佳论文奖，成为了各种视觉任务（分类、检测、分割）的首选骨干网络。

第二部分：2D 分割革新 (2D Segmentation)

1. 【2020.12】分割的 ViT 时刻：SETR（SEgmentation TRansformer）

这是将 ViT 真正用于分割的开山鼻祖（自然图像领域），地位相当于 CNN 中的 FCN。

中文主题：SETR：基于 Transformer 的序列到序列语义分割

论文题目：Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

作者团队：Sixiao Zheng, Jiachen Lu, et al.

所属机构：Fudan University (复旦大学), Tencent Youtu Lab

发表时间/会议：2020年12月提交，CVPR 2021

源码地址：https://github.com/fudan-zvg/SETR

一句话核心：SETR 第一次抛弃了 CNN 编码器，直接用纯 ViT 提取特征，证明了把图片像素拉直成序列（Sequence），依然可以做精细的语义分割，是 TransUNet 等后续工作的灵感来源之一。

2. 【2021.02】混合架构先驱：TransUNet（Transformers and U-Net）

中文主题：TransUNet：首个结合 Transformer 和 U-Net 的医学图像分割模型

论文题目：TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

作者团队：Jieneng Chen, Yongyi Lu, Qihang Yu, et al. (Alan Yuille 团队)

所属机构：Johns Hopkins University (JHU) (约翰霍普金斯大学) 等

发表时间/会议：2021年2月提交 ArXiv，后续在医学影像相关领域产生巨大影响力

源码地址：

官方 (PyTorch)：https://github.com/Beckschen/TransUNet

常用复现库 (MONAI)：https://github.com/Project-MONAI/MONAI (MONAI 现已集成类似架构)

一句话核心：TransUNet 是混合架构（Hybrid Architecture）的先驱，它将 ViT 塞进了 U-Net 的"瓶颈层"作为编码器，既保留了 CNN 提取局部细节的能力，又利用 Transformer 捕捉到了医学图像中至关重要的长距离依赖（全局上下文）。

3. 【2021.05】纯 Transformer 架构：Swin-Unet（Shifted Window Transformer Unet）

【PyTorch项目实战】Swin-Unet：用于医学图像分割的类Unet纯Transformer模型

中文主题：Swin-Unet：一种用于医学图像分割的类Unet纯Transformer架构

论文题目：Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

作者团队：Hu Cao, Yueyue Wang, Joy Joy, Dongsheng Ruan, et al.

所属机构：Huazhong University of Science and Technology (HUST) (华中科技大学)

发表时间/会议：2021年5月提交 ArXiv，ECCV 2022 (MCV Workshop) 接收

源码地址：

官方 (PyTorch)：https://github.com/HuCaoFighting/Swin-Unet

一句话核心：Swin-Unet 是首个专为医学图像分割设计的"纯 Transformer" U-Net 架构，它完全剔除了卷积神经网络 (CNN)，利用 Swin Transformer 模块构建了双臂 U 型结构，证明了纯 Transformer 在医学密集预测任务上也能超越传统 CNN。

4. 【2021.05】高效分割之王：SegFormer（Segmentation Transformer）

如果说 Swin Transformer 是为了刷分，SegFormer 就是为了落地。它在医学分割中也极受欢迎。

中文主题：SegFormer：简单高效的 Transformer 语义分割设计

论文题目：SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

作者团队：Enze Xie, Wenhai Wang, et al.

所属机构：NVIDIA, HKU

发表时间/会议：2021年5月提交，NeurIPS 2021

源码地址：https://github.com/NVlabs/SegFormer

一句话核心：SegFormer 移除了 Transformer 中繁重的位置编码（Positional Encoding），提出了轻量级的 MLP 解码器，在速度和精度之间取得了完美平衡，是目前工业界和医学轻量化部署的首选架构。

第二部分：3D 医学霸主 (3D Medical Segmentation)

1. 【2021.03】3D 医学分割基石：UNETR（UNEt TRansformers）

TransUNet 解决了 2D 切片，而 UNETR 解决了医学领域最头疼的 3D 体数据 (CT/MRI) 处理问题。

中文主题：UNETR：用于 3D 医学图像分割的 Transformer

论文题目：UNETR: Transformers for 3D Medical Image Segmentation

作者团队：Ali Hatamizadeh, et al.

所属机构：NVIDIA (英伟达)

发表时间/会议：2021年3月提交，WACV 2022

源码地址：https://github.com/Project-MONAI/research-contributions/tree/master/UNETR (官方集成在 MONAI 中)

一句话核心：UNETR 是 3D 医学分割的里程碑，它直接将 3D 体素（Voxel）切块输入纯 Transformer 编码器，解决了 CNN 在 3D 空间中感受野有限的问题，成为处理立体器官分割的标准基线。

2. 【2022.01】3D 版 Swin 的进化：Swin-UNETR（Swin UNEt TRansformers）

这是 UNETR 的升级版，也是目前医学影像竞赛（如 BTCV）中的常客。

中文主题：Swin-UNETR：用于医学图像分割的类 Swin Transformer

论文题目：Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images

作者团队：Ali Hatamizadeh, et al.

所属机构：NVIDIA

发表时间/会议：2022年1月提交，MICCAI 2022

源码地址：https://github.com/Project-MONAI/research-contributions/tree/master/SwinUNETR

一句话核心：Swin-UNETR 将 Swin Transformer 的"滑动窗口"机制引入 3D 分割，相比初代 UNETR，它计算量更小、收敛更快、精度更高，是目前 3D 医学分割最强的 Transformer 基线之一。

三、🌌 大模型纪元：提示驱动与通用分割的奇点时刻 (2023 - 至今)

【PyTorch项目实战】SAM（Segment Anything Model）
【PyTorch项目实战】SAM3：概念分割 + 3D重建（模型 + 人体）
【PyTorch项目实战】FastSAM（快速分割一切）

核心突破：从"特定任务训练"转向"预训练基础模型 + 提示词交互"。

1. 【2023.04】视觉分割的 GPT 时刻：SAM（Segment Anything Model）

这是计算机视觉领域的"核弹级"工作，Meta 用 11 亿个掩码（Mask）暴力美学地解决了"分割一切"的问题。

中文主题：SAM：分割一切模型

论文题目：Segment Anything

作者团队：Alexander Kirillov, Eric Mintun, Nikhila Ravi, et al.

所属机构：Meta AI (FAIR)

发表时间/会议：2023年4月发布，ICCV 2023 (Best Paper Honorable Mention)

源码地址：https://github.com/facebookresearch/segment-anything

一句话核心：SAM 是首个图像分割的基础模型 (Foundation Model)，它基于 ViT 架构，利用海量数据 (SA-1B) 训练出了强大的零样本泛化能力，允许用户通过点、框或文本提示 (Prompt) 实时分割任何物体。

2. 【2023.06】实时版的 SAM：FastSAM

SAM 虽然强但太慢（ViT 计算重），FastSAM 用工业界最成熟的 YOLO 技术实现了"既要快又要好"。

中文主题：FastSAM：快速分割一切

论文题目：Fast Segment Anything

作者团队：Xu Zhao, Wenchao Ding, et al.

所属机构：CASIA-IVA-Lab (中科院自动化所)

发表时间/会议：2023年6月发布，ArXiv

源码地址：https://github.com/CASIA-IVA-Lab/FastSAM

一句话核心：FastSAM 摒弃了沉重的 Transformer，利用 YOLOv8-seg (CNN) 将任务解耦为"全实例分割 + 提示匹配"，在保持与 SAM 相当性能的同时，推理速度提升了 50 倍，达到了毫秒级实时水平。

3. 【2023.04】医学领域的通用基座：MedSAM（Segment anything in medical images）

SAM 在自然图像上很强，但在医学图像（灰度、低对比度）上表现不佳。MedSAM 是第一个填补这一鸿沟的通用医学模型。

中文主题：MedSAM：医学图像中的"分割一切"

论文题目：Segment Anything in Medical Images

作者团队：Jun Ma (马军), Bo Wang (王博), et al.

所属机构：University of Toronto (多伦多大学) & UHN

发表时间/会议：2023年4月发布，Nature Communications (2024) 接收

源码地址：https://github.com/bowang-lab/MedSAM

一句话核心：MedSAM 是首个专门针对医学图像的通用分割基础模型，它收集了百万级多模态医学数据对 SAM 进行全参数微调，结束了医学领域"一个器官训练一个专用模型"的碎片化时代。

4. 【2024.07】统一视频与图像的进化：SAM 2

SAM 解决了静态图像的分割，而 SAM 2 引入了"时间"维度，解决了视频中物体遮挡、形变和重出现的连续分割难题。

中文主题：SAM 2：在图像和视频中分割一切

论文题目：SAM 2: Segment Anything in Images and Videos

作者团队：Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, et al.

所属机构：Meta FAIR (基础人工智能研究院)

发表时间/会议：2024年7月发布，ArXiv / SIGGRAPH 2024 (相关展示)

源码地址：https://github.com/facebookresearch/sam2

一句话核心：SAM 2 是首个统一图像与视频分割的基础模型，它引入了"流式记忆机制 (Streaming Memory)"，不仅继承了 SAM 的零样本图像分割能力，更能对视频中的目标进行持续、连贯的追踪与分割，即使目标短暂消失也能重新找回。

5. 【2025.11】全能感知的集大成者：SAM 3

这是 SAM 家族从"几何分割"迈向"语义理解"的关键一步，不再仅仅把物体切出来，还能理解它是什么（开放词汇）。

中文主题：SAM 3：开放世界全能感知模型

论文题目：SAM 3: Open-Vocabulary Segment Anything and Everything

作者团队：Meta FAIR Team (Alexander Kirillov, et al.)

所属机构：Meta FAIR

发表时间/会议：2025年11月发布

源码地址：https://github.com/facebookresearch/sam3 (示例地址)

一句话核心：SAM 3 是视觉感知的集大成者，它彻底打破了检测、分割与追踪的任务边界，并引入了强大的"开放词汇 (Open-Vocabulary)"能力，无需微调即可识别和分割极其罕见或抽象的概念，实现了真正的通用视觉理解。

6. 【2025.11】从像素到体素的跨越：SAM 3D

与 SAM 3 同期发布，标志着 Meta 的视觉大模型正式进军三维物理世界，解决了从 2D 照片生成 3D 资产的难题。

中文主题：SAM 3D：将分割能力提升至三维世界

论文题目：SAM 3D: Segment and Reconstruct Anything in 3D

作者团队：Meta GenAI & FAIR Team

所属机构：Meta AI

发表时间/会议：2025年11月发布

源码地址：https://github.com/facebookresearch/sam3d

一句话核心：SAM 3D 实现了从"看懂图片"到"构建世界"的跨越，它能够仅凭单张 2D 图像或稀疏视角，直接重建并分割出具有完整几何结构和纹理的 3D 物体（SAM 3D Objects）甚至人体（SAM 3D Body），极大降低了 3D 内容创作的门槛。