BiRefNet:高分辨率图像分割的利器

阿里联合南开等高校及科研机构发布一种名为 BiRefNet 的高分辨率图像分割框架,引入了一种新颖的双边参考框架(BiRefNet),用于高分辨率二分图像分割(DIS)。该框架由两个基本组件组成:定位模块(LM)和提出的双边参考(BiRef)重建模块(RM)。LM 利用全局语义信息辅助目标定位。在 RM 中,利用 BiRef 进行重建过程,其中图像的层次化块作为源参考,梯度图作为目标参考。这些组件协同工作生成最终的预测图。
paperBilateral Reference for High-Resolution Dichotomous Image Segmentation
githubhttps://github.com/ZhengPeng7/BiRefNet
demohttps://www.birefnet.top/segment

核心理念

BiRefNet是一种新颖的双边参考框架,它由两个基本组件构成:定位模块(LM)和重建模块(RM)。通过双边参考(BiRef)技术,该框架能够有效地利用全局语义信息进行目标定位,并在重建过程中利用图像的分层补丁和梯度图进行细节重建。

关键特性

  • 定位模块(LM):利用全局语义信息辅助目标定位。
  • 重建模块(RM):在重建过程中,使用BiRef技术,结合源图像和梯度图进行细节重建。
  • 双边参考模块(BiRef:包括具有源图像引导的内部参考和具有梯度监督的外部参考。该模块在重建预测的高分辨率结果方面表现出显著的效果。
  1. 定位模块(Localization Module, LM)
    功能:利用全局语义信息辅助目标定位。
    操作:通过变换器编码器(Transformer Encoder)提取不同阶段的特征,并将这些特征传递到相应的解码器阶段,同时通过全局平均池化层和全连接层进行分类,以获得更好的语义表示。
  2. 重建模块(Reconstruction Module, RM)
    功能:在重建过程中使用双边参考技术,结合源图像和梯度图进行细节重建。
    操作:采用重构块(Reconstruction Block, RB),在每个BiRef块中使用可变形卷积(Deformable Convolution)和分层接收场(Hierarchical Receptive Fields)来提取多尺度的特征。
  1. 双边参考(Bilateral Reference, BiRef)
    内在参考(Inward Reference):使用原始高分辨率图像的补丁与解码器阶段的输出特征结合,为每个阶段提供高分辨率信息。
    外在参考(Outward Reference):利用梯度标签吸引模型关注细节丰富的区域,通过梯度监督生成梯度参考注意力图。

目标函数

结合了二元交叉熵(BCE)损失、交并比(IoU)损失、结构相似性指数(SSIM)损失和交叉熵(CE)损失。在像素、区域、边界和语义级别上提供综合的监督信号。

在高分辨率分割任务中,仅使用像素级监督(BCE损失)通常会导致高分辨率数据中细节结构信息的劣化。受 使用混合损失取得优秀结果的启发,将BCE、IoU、SSIM 和 CE 损失结合使用。

其中,λ1, λ2, λ3 和 λ4 分别设置为 30, 0.5, 10 和 5,以在训练开始时保持所有损失在相同的量级。最终的目标函数包括二元交叉熵(BCE)损失、交并比(IoU)损失、结构相似性指数(SSIM)损失和交叉熵(CE)损失。

训练策略

  • 长训练与多阶段监督:通过长时间的训练和多阶段监督来提高模型在细节分割上的性能。
  • 区域级损失微调:使用区域级损失进行微调,以提高预测结果的二值化质量。
  • 上下文特征融合和图像金字塔输入:这些技术用于改善高分辨率图像的深度模型处理。
  • 其他训练细节:所有图像均调整大小为 1024×1024 用于训练和测试。生成的分割地图经过重新调整大小(即双线性插值),以便与相应的 GT 地图的原始大小进行评估。训练过程中唯一使用的数据增强技术是水平翻转。类别数 C 设置为 219,与 DIS-TR 中的定义一致。

结果

在四个任务上进行了广泛的实验,即高分辨率二分图像分割(DIS)、高分辨率显著物体检测(HRSOD)、隐蔽物体检测(COD)和显著物体检测(SOD)。提出的模型(BiRefNet)

与所有最新的任务特定模型在现有基准数据集上进行了比较。

结果表明 :从两个方面来看,BiRefNet 优于之前的 DIS 方法,即目标物体的位置和物体细节的更精确分割。例如,在 DIS-TE4 和 DIS-TE2的样本中,有邻近的干扰物吸引了其他模型的注意,产生了误报。相反,BiRefNet 消除了干扰物并准确分割了目标。在 DIS-TE3 和 DIS-VD 的样本中,BiRefNet在精确分割细节丰富的区域方面表现出色。与之前的方法相比, BiRefNet 能够清晰地分割细长的形状和曲线边缘。

技术优势

高性能: BiRefNet在多个任务上超越了特定任务的最新方法,包括DIS5K任务、HRSOD和COD,在平均Sm(结构相似性)指标上分别提高了6.8%、2.0%和5.6%。

实用性: 该技术不仅在理论上具有创新性,而且在实际应用中也展现出了极高的实用价值。例如,在建筑裂缝检测和高分辨率自然图像中的对象提取等领域,BiRefNet都能提供高质量的分割结果。

应用场景


其他分割样例:

相关推荐
魔力之心13 分钟前
人工智能与机器学习原理精解【24】
人工智能·机器学习·概率论
浊酒南街17 分钟前
吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)2.1-2.2
人工智能·深度学习·机器学习
VB.Net37 分钟前
EmguCV学习笔记 C# 12.3 OCR
opencv·计算机视觉·c#·ocr·vb.net·emgucv
AI完全体39 分钟前
【AI战略思考1】如何更高效地了解AI行业的最新动态和商业应用以及我的时间分配
人工智能·机器学习·ai·商业应用·ai行业动态·技术趋势·信息渠道
#include<菜鸡>1 小时前
动手学深度学习(pytorch土堆)-06损失函数与反向传播、模型训练、GPU训练
人工智能·pytorch·深度学习
o(╯□╰)o亚比囧囧囧2 小时前
李沐 过拟合和欠拟合【动手学深度学习v2】
人工智能·深度学习
钡铼技术2 小时前
通过MCGS在ARMxy边缘计算网关上实现物流自动化
人工智能·自动化·边缘计算·钡铼技术·armxy边缘计算网关
OpenTiny社区3 小时前
茶思屋直播|TinyEngine+AI:聚焦主航道,在实践中探索低代码技术黑土地
人工智能·低代码
chenkangck504 小时前
AI大模型之旅--milvus向量库安装
人工智能·aigc·milvus
学习前端的小z4 小时前
【AI视频】Runway:Gen-2 图文生视频与运动模式详解
人工智能·aigc·音视频