
摘要
语义分割作为计算机视觉领域的核心技术,近年来在深度学习推动下取得了突破性进展。本文系统综述了截至2025年的语义分割算法发展历程,重点分析了5种经典模型与3种轻量化创新架构,涵盖其核心原理、创新点及实际应用场景。针对实时性需求,本文特别探讨了轻量级模型的设计策略,并结合多尺度融合、空洞卷积与硬件加速等关键技术,展望了未来发展方向。
1. 引言
语义分割旨在为图像中的每个像素分配语义标签,广泛应用于自动驾驶、医疗影像分析等领域。传统方法依赖手工特征,而深度学习通过端到端学习实现了从低级特征到高级语义的自动映射。本文聚焦于以下三类模型:
- 基础架构:奠定语义分割框架的经典模型(如FCN、U-Net);
- 性能优化型:提升多尺度与边界精度的改进模型(如DeepLabv3+、PSPNet);
- 轻量级实时型:面向移动端与边缘计算的高效模型(如MPPTSNet-EC、LRNNet)。
2. 经典语义分割模型
2.1 FCN(Fully Convolutional Networks)

核心原理 :FCN首次将全连接层替换为卷积层,支持任意尺寸输入,并通过反卷积实现像素级预测。跳跃连接(Skip Connection)融合浅层细节与深层语义,缓解下采样的信息丢失。
创新点:
- 端到端的全卷积结构;
- 复用ImageNet预训练模型进行迁移学习。
局限性 :特征图分辨率低导致边界模糊,计算复杂度较高。
论文链接 :Fully Convolutional Networks for Semantic Segmentation
2.2 U-Net

核心原理 :对称的编码器-解码器结构,编码器通过下采样提取特征,解码器通过上采样恢复分辨率。横向连接(Lateral Connection)将编码器的多级特征与解码器融合,增强细节保留能力。
创新点:
- 医学图像分割中的高精度表现;
- 单次训练即可生成精细分割结果。
应用场景 :细胞分割、肿瘤检测。
论文链接 :U-Net: Convolutional Networks for Biomedical Image Segmentation
2.3 DeepLabv3+

核心原理 :结合空洞卷积(Dilated Convolution)与空间金字塔池化(ASPP),在保持感受野的同时减少下采样。引入解码器模块,融合高层语义与底层细节,优化边界精度。
关键技术:
- 空洞卷积:通过调整膨胀率(Rate)控制特征图分辨率;
- ASPP模块:并行多尺度空洞卷积捕获上下文信息;
- 改进的Xception骨干网络 :采用深度可分离卷积降低计算量。
性能 :在PASCAL VOC 2012上达到89.0% mIoU,但实时性较差。
论文链接 :Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
3. 多尺度与边界优化模型
3.1 PSPNet(Pyramid Scene Parsing Network)

核心原理 :引入金字塔池化模块(Pyramid Pooling Module),通过不同尺度的池化操作聚合全局上下文信息,解决目标尺度差异问题。
创新点:
- 多级池化层融合局部与全局特征;
- 辅助损失函数加速模型收敛。
应用场景 :城市场景解析(Cityscapes)。
论文链接 :Pyramid Scene Parsing Network
3.2 RefineNet
核心原理 :链式残差池化(Chained Residual Pooling)模块捕获大范围上下文,并通过残差连接优化梯度传播。编码器-解码器结构逐步细化特征,提升小目标分割精度。
优势 :在复杂背景下的鲁棒性较强,适用于自然场景分割。
论文链接 :RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation
4. 轻量级实时分割模型
4.1 MPPTSNet-EC(基于MobileNetv2的多金字塔池化网络)
核心原理 :以MobileNetv2为骨干网络,设计多金字塔池化模块融合多尺度特征,并引入边界约束损失函数强化边缘分割。
创新点:
- 轻量化设计:深度可分离卷积减少参数量;
- 边界约束网络:联合训练分割与边缘检测任务;
- 通道扩张策略 :弥补下采样的特征丢失。
性能 :参数量仅2.1M,在Cityscapes数据集上达到68.4% mIoU,帧率超30 FPS。
论文链接 :专利CN113223006B
4.2 ShuffleNet-Seg
核心原理 :基于ShuffleNetv2设计,采用通道重排(Channel Shuffle)增强特征交互,并引入动态卷积适应多尺度输入。
创新点:
- 轻量骨干网络:平衡计算效率与特征表达能力;
- 动态金字塔池化 :根据输入分辨率调整池化层级。
性能:参数量1.2M,在CamVid数据集上达到70.1% mIoU,帧率60 FPS。
5. 未来发展趋势
- 跨模态融合:结合红外、激光雷达等多模态数据提升复杂环境下的分割鲁棒性;
- 自监督学习:减少对标注数据的依赖,通过对比学习生成伪标签;
- 硬件协同设计:针对FPGA与NPU优化模型架构,实现端侧实时推理;
- 动态网络:根据输入内容自适应调整计算路径,平衡精度与效率。