镜面检测 Mirror Detection

文章目录

一、镜面检测介绍
[二、术语表 glossary](#二、术语表 glossary)
三、镜面检测模型
- [1.通用型语义分割 / 边缘检测模型：EGNet、MINet、LDF、VST](#1.通用型语义分割 / 边缘检测模型：EGNet、MINet、LDF、VST)
- 2.经典语义分割骨干网络：PSPNet、DANet、UperNet
- 3.显著目标检测 (Salient Object Detection, SOD)
- 4.玻璃检测 (glass detection)
- [5.专用镜面检测模型 (Mirror Detection)：MirrorNet、VCNet、SATNet、CSFwinformer](#5.专用镜面检测模型 (Mirror Detection)：MirrorNet、VCNet、SATNet、CSFwinformer)
四、镜面检测数据集
- [1.MSD (Mirror Segmentation Dataset，2019)：简单场景](#1.MSD (Mirror Segmentation Dataset，2019)：简单场景)
- [2.PMD (Progressive Mirror Detection Dataset，2020)：复杂真实场景](#2.PMD (Progressive Mirror Detection Dataset，2020)：复杂真实场景)
- [3.VMD (Video Mirror Dataset)：视频镜面检测数据集](#3.VMD (Video Mirror Dataset)：视频镜面检测数据集)
- [4.RGBD-Mirror dataset](#4.RGBD-Mirror dataset)
五、组内发表的相关论文
- 1.CSFwinformer
- [2.VMD-Net：Video Mirror Detection](#2.VMD-Net：Video Mirror Detection)
- [3. 《Glass Makes Blurs: Learning the Visual Blurriness for Glass Surface Detection》](#3. 《Glass Makes Blurs: Learning the Visual Blurriness for Glass Surface Detection》)
- [4.Visual Chirality Cue](#4.Visual Chirality Cue)
六、镜面检测的方法 (新老对比)

一、镜面检测介绍

镜面检测(Mirror Detection) 属于计算机视觉(Computer Vision) 领域中的 **图像语义分割(Image Semantic Segmentation) ** 、 物体检测(Object Detection) 、纹理分析(Texture Analysis) 的子领域。

领域论文：

1.镜面检测(Mirror Detection)

2.玻璃检测(Glass Detection)

3.语义分割(Semantic Segementation)

4.目标检测(Object Detection)

5.纹理分析(Texture Analysis)

二、术语表 glossary

镜面和玻璃的区别：镜面是反射，玻璃是透射

缩写	英文全称	中文释义	拓展
GDD	glass detection dataset	玻璃检测数据集
GSD	glass surface dataset	玻璃表面数据集
MSD	Mirror Segmentation Dataset	镜像分割数据集
PMD	Progressive Mirror Detection dataset	渐进镜面检测数据集
CAMO	camouflaged object images dataset	伪装目标图片数据集
	visual detection task	视觉检测任务
	object detection	目标检测	Object detection is the task that aims to detect and locate the object in the images or videos, which has attracted considerable research attention in recent years.
COD	Confusing object detection	混淆目标检测
	general object detection	一般目标检测
	salient object detection	显著目标检测
	mirror detection	镜面检测
	glass detection	玻璃检测
	camouflaged object detection	伪装目标检测
MAE	Mean Absolute Error	平均绝对误差
BER	Boundary Error Rate	边界误差率
MAE	Mean Absolute Error	平均绝对误差
	backbone	骨干(网络)
	mirror detection	镜面检测
	glass detection	玻璃检测
	generalization	泛化性
	quantitative comparision	定量比较
FPS	frames per second	每秒帧数
IoU	Intersection over Union	交并比	交集与并集的比率。它是用来衡量两个集合重叠程度的一种指标。通常用于图像分割和目标检测中，评估预测结果与真实标签的匹配程度
F β F_β Fβ	F-beta score	Fβ 分数	综合精确率和召回率的指标，β 用于调整两者权重
Acc	accuracy rate	准确率
	benchmark datasets	基准数据集
	refine	细化
	characteristics	特性
	distortion	失真
	clue	线索

三、镜面检测模型

1.通用型语义分割 / 边缘检测模型：EGNet、MINet、LDF、VST

并非专门针对镜面检测任务设计，被用于镜面检测任务的基准对比，体现镜面检测任务对通用模型的挑战。

2.经典语义分割骨干网络：PSPNet、DANet、UperNet

常作为下游任务(包括镜面检测)的基础框架，用于验证任务特异性改进的必要性

3.显著目标检测 (Salient Object Detection, SOD)

(1)AFNet (CVPR 2019)

2019年CVPR发表的经典显著目标检测模型，通过注意力机制增强显著区域特征提取，是该领域早期代表性方法之一。

(2)EGNet (ICCV 2019)

全称为 "Edge-Guided Network"，2019年ICCV提出，强调边缘信息对显著目标检测的引导作用，通过融合边缘与区域特征提升分割精度。

(3)MINet (CVPR 2020)

2020年CVPR模型，专注于多尺度信息融合，通过精细化处理不同层级特征，增强显著目标的细节捕捉能力。

(4)GateNet (ECCV 2020)

2020年ECCV模型，引入门控机制动态调整特征权重，更精准区分显著目标与背景，在 F β F_β Fβ和边界误差(BER)指标上表现突出。

(5)VST (ICCV 2021)

2021年ICCV模型，通过 "视觉 - 语义转换" 思路结合语义信息，增强显著目标识别，在IoU和像素准确率(Acc)上有明显提升。

(6)RCSBNet (WACV 2022)

2022年WACV模型，注重 "区域 - 上下文 - 边界" 协同学习，在细节分割和边界精度上针对性优化，平均绝对误差(MAE)表现较好。

(7)ICON (TPAMI 2022)

2022年TPAMI发表的先进模型，集成多任务学习 (如同时学习显著目标和边缘)，在Acc和 F β F_β Fβ上表现均衡。

(8)ABiU-Net (TCSVT 2023)

2023年TCSVT模型，基于U-Net架构改进，引入注意力和双向特征融合，在 F β F_β Fβ和MAE指标上达到较高水平。

其中，RGB-D显著目标检测方法：BBSNet、VST

4.玻璃检测 (glass detection)

(1)GDNet (CVPR 2020)

2020年CVPR发表的玻璃检测专用模型，是该领域早期的代表性方法之一，在玻璃检测的 IoU、 F β F_β Fβ等指标上表现突出，为后续研究奠定了基础。

(2)GSDNet (CVPR 2021)

2021年CVPR提出的玻璃检测模型，针对玻璃的光学特性(如反射、透明性)优化了特征提取流程，在 GDD和HSO数据集上的性能优于同期部分方法。

(3)PGSNNet (TIP 2022)

2022年发表于TIP (IEEE Transactions on Image Processing)的玻璃检测模型，属于该领域的先进方法，通过精细化的网络设计提升了玻璃检测的边界精度和整体分割性能。

(4)RGB-T (TIP 2023)

2023年TIP提出的多模态玻璃检测模型，融合了 RGB 图像与热成像(Thermal)数据，试图通过多模态信息增强玻璃检测的鲁棒性，不过在HSO数据集上的部分指标未完全覆盖。

5.专用镜面检测模型 (Mirror Detection)：MirrorNet、VCNet、SATNet、CSFwinformer

模型名称	领域	提出时间	原理
MirrorNet(First)	镜面	2019 (ICCV)	利用镜内外在颜色/纹理等内容不连续做上下文对比，逐级细化分割。缺陷：上下文不足
PMDNet	镜面	2020 (CVPR)	显式建模镜框/边界，利用反射镜内外物理对应关系与关系对比确定镜面位置
PDNet	镜面	2021 (CVPR)	借助深度图，利用镜内外深度不连续进行分割缺点：深度不可靠，需要额外设备
SANet	镜面	2022 (CVPR)	学习镜子与周围物体之间的语义关联来定位镜面
VCNet(谭鑫)	镜面	2022(IEEE-TPAMI)	Visual Chirality Cue 借助反射内容的视觉手性作为镜面线索
SATNet	镜面	2023 (AAAI)	基于Transformer，利用真实物体与其镜中反射之间的松散对称性
VMD-Net(谭鑫)	镜面	2023 (CVPR)	视频镜面
CSFwinformer(王森)	镜面	2024 (TIP)	跨空间-频率窗口Transfromer：SFWA对齐空间/频域纹理；DWA做全局建模；CMCC跨模态对比融合空间-频率特征(跨模态)、图像纹理特征
GDNet	玻璃	2020 (CVPR)	面向真实场景玻璃检测的基线与数据集；基于RGB线索学习玻璃区域
VBNet	玻璃	2024	利用视觉模糊性作为玻璃检测线索

四、镜面检测数据集

1.MSD (Mirror Segmentation Dataset，2019)：简单场景

4018张 (训练3063 / 测试955)。包含3063张训练图像和955张测试图像，场景相对简单，与真实应用场景存在一定差距。该数据集是镜面分割任务的基础数据集之一，用于评估模型在常规场景下的分割能力。

2.PMD (Progressive Mirror Detection Dataset，2020)：复杂真实场景

5667张 (训练5096 / 测试571)。是一个聚焦复杂真实场景的镜面检测数据集，包含5096张训练图像和571张测试图像，场景多样且具有挑战性。该数据集在镜面检测研究中被广泛用于评估模型在复杂场景下的性能。

3.VMD (Video Mirror Dataset)：视频镜面检测数据集

包含269个视频、14988帧图像，覆盖真实生活场景（如家居、商业空间等），每帧都有像素级的镜面区域标注。用于视频镜面检测任务的基准测试

4.RGBD-Mirror dataset

用于RGB-D 镜面分割任务的专业数据集。包含3049组RGB图像、深度图及像素级镜面真值掩码。

五、组内发表的相关论文

1.CSFwinformer

CSFwinformer: Cross-Space-Frequency Window Transformer for Mirror Detection：跨空间频率窗口转换器，用于镜面检测

1.代码：
https://github.com/wangsen99/CSFwinformer

2.原理：

设计了一种跨模态学习方法，该方法同时捕捉空间频率特征来探索图像纹理和检测镜面区域。
对齐 - 扩张 - 融合 ：

(1)SFWA （Spatial-Frequency Window Alignment，空间频率窗口对齐模块）：在窗口内，对图像中的空间特征和频率特征进行对齐，并计算窗口单位的跨模态特征亲和力，以减少计算负载

(2)DWA （Dilated Window Attention，扩展窗口注意）：解决SFWA模块的局部特征建模问题，DWA模块通过膨胀卷积(dilated convolution)来扩展感受野，从而提取全球上下文特征。通过不同大小的膨胀窗口，DWA能够连接不同的窗口区域，捕捉镜面区域的全局信息，从而提高镜面检测的准确性。

(3)CMCC（Cross-Modality Context Contrast，跨模态上下文对比模块）：跨模态融合空间信息和频率信息

3.实验结果：

CSFwinformer在PMD、MSD、RGBD-Mirror三套镜面数据集上优于SOTA，并在镜面检测上显著地提高了SAM的性能

2.VMD-Net：Video Mirror Detection

《Learning to Detect Mirrors from Videos via Dual Correspondences》

3. 《Glass Makes Blurs: Learning the Visual Blurriness for Glass Surface Detection》

4.Visual Chirality Cue

六、镜面检测的方法 (新老对比)

对比传统方法和最新方法的不同。

传统方法主要依赖手工特征，比如颜色、纹理、边缘特征，或者利用镜面内外的内容差异。这些方法在复杂场景中容易失效，因为手工特征难以捕捉高层语义。

而最新方法基于深度学习，尤其是CNN和Transformer，能够自动学习更复杂的特征。

在最新的方法中，注意到Transformer的应用越来越广泛，比如SATNet和CSFwinformer，它们利用自注意力机制处理长距离依赖，甚至结合频率域信息。另外，多模态输入也是一个趋势，比如结合深度信息（PDNet）或偏振光信息，这些在传统方法中很少见。