镜面检测 Mirror Detection

文章目录

一、镜面检测介绍

镜面检测(Mirror Detection) 属于 计算机视觉(Computer Vision) 领域中的 **图像语义分割(Image Semantic Segmentation) ** 、 物体检测(Object Detection)纹理分析(Texture Analysis) 的子领域。

领域论文:

1.镜面检测(Mirror Detection)

2.玻璃检测(Glass Detection)

3.语义分割(Semantic Segementation)

4.目标检测(Object Detection)

5.纹理分析(Texture Analysis)

二、术语表 glossary

镜面和玻璃的区别:镜面是反射,玻璃是透射

缩写 英文全称 中文释义 拓展
GDD glass detection dataset 玻璃检测数据集
GSD glass surface dataset 玻璃表面数据集
MSD Mirror Segmentation Dataset 镜像分割数据集
PMD Progressive Mirror Detection dataset 渐进镜面检测数据集
CAMO camouflaged object images dataset 伪装目标图片数据集
visual detection task 视觉检测任务
object detection 目标检测 Object detection is the task that aims to detect and locate the object in the images or videos, which has attracted considerable research attention in recent years.
COD Confusing object detection 混淆目标检测
general object detection 一般目标检测
salient object detection 显著目标检测
mirror detection 镜面检测
glass detection 玻璃检测
camouflaged object detection 伪装目标检测
MAE Mean Absolute Error 平均绝对误差
BER Boundary Error Rate 边界误差率
MAE Mean Absolute Error 平均绝对误差
backbone 骨干(网络)
mirror detection 镜面检测
glass detection 玻璃检测
generalization 泛化性
quantitative comparision 定量比较
FPS frames per second 每秒帧数
IoU Intersection over Union 交并比 交集与并集的比率。它是用来衡量两个集合重叠程度的一种指标。 通常用于图像分割和目标检测中,评估预测结果与真实标签的匹配程度
F β F_β Fβ F-beta score Fβ 分数 综合精确率和召回率的指标,β 用于调整两者权重
Acc accuracy rate 准确率
benchmark datasets 基准数据集
refine 细化
characteristics 特性
distortion 失真
clue 线索

三、镜面检测模型

1.通用型语义分割 / 边缘检测模型:EGNet、MINet、LDF、VST

并非专门针对镜面检测任务设计,被用于镜面检测任务的基准对比,体现镜面检测任务对通用模型的挑战。

2.经典语义分割骨干网络:PSPNet、DANet、UperNet

常作为下游任务(包括镜面检测)的基础框架,用于验证任务特异性改进的必要性

3.显著目标检测 (Salient Object Detection, SOD)

(1)AFNet (CVPR 2019)

2019年CVPR发表的经典显著目标检测模型,通过注意力机制增强显著区域特征提取,是该领域早期代表性方法之一。

(2)EGNet (ICCV 2019)

全称为 "Edge-Guided Network",2019年ICCV提出,强调边缘信息对显著目标检测的引导作用,通过融合边缘与区域特征提升分割精度。

(3)MINet (CVPR 2020)

2020年CVPR模型,专注于多尺度信息融合,通过精细化处理不同层级特征,增强显著目标的细节捕捉能力。

(4)GateNet (ECCV 2020)

2020年ECCV模型,引入门控机制动态调整特征权重,更精准区分显著目标与背景,在 F β F_β Fβ和边界误差(BER)指标上表现突出。

(5)VST (ICCV 2021)

2021年ICCV模型,通过 "视觉 - 语义转换" 思路结合语义信息,增强显著目标识别,在IoU和像素准确率(Acc)上有明显提升。

(6)RCSBNet (WACV 2022)

2022年WACV模型,注重 "区域 - 上下文 - 边界" 协同学习,在细节分割和边界精度上针对性优化,平均绝对误差(MAE)表现较好。

(7)ICON (TPAMI 2022)

2022年TPAMI发表的先进模型,集成多任务学习 (如同时学习显著目标和边缘),在Acc和 F β F_β Fβ上表现均衡。

(8)ABiU-Net (TCSVT 2023)

2023年TCSVT模型,基于U-Net架构改进,引入注意力和双向特征融合,在 F β F_β Fβ和MAE指标上达到较高水平。

其中,RGB-D显著目标检测方法:BBSNet、VST

4.玻璃检测 (glass detection)

(1)GDNet (CVPR 2020)

2020年CVPR发表的玻璃检测专用模型,是该领域早期的代表性方法之一,在玻璃检测的 IoU、 F β F_β Fβ等指标上表现突出,为后续研究奠定了基础。

(2)GSDNet (CVPR 2021)

2021年CVPR提出的玻璃检测模型,针对玻璃的光学特性(如反射、透明性)优化了特征提取流程,在 GDD和HSO数据集上的性能优于同期部分方法。

(3)PGSNNet (TIP 2022)

2022年发表于TIP (IEEE Transactions on Image Processing)的玻璃检测模型,属于该领域的先进方法,通过精细化的网络设计提升了玻璃检测的边界精度和整体分割性能。

(4)RGB-T (TIP 2023)

2023年TIP提出的多模态玻璃检测模型,融合了 RGB 图像与热成像(Thermal)数据,试图通过多模态信息增强玻璃检测的鲁棒性,不过在HSO数据集上的部分指标未完全覆盖。

5.专用镜面检测模型 (Mirror Detection):MirrorNet、VCNet、SATNet、CSFwinformer

模型名称 领域 提出时间 原理
MirrorNet(First) 镜面 2019 (ICCV) 利用镜内外在颜色/纹理等内容不连续做上下文对比,逐级细化分割。缺陷:上下文不足
PMDNet 镜面 2020 (CVPR) 显式建模镜框/边界,利用反射镜内外物理对应关系与关系对比确定镜面位置
PDNet 镜面 2021 (CVPR) 借助深度图,利用镜内外深度不连续进行分割 缺点:深度不可靠,需要额外设备
SANet 镜面 2022 (CVPR) 学习镜子与周围物体之间的语义关联来定位镜面
VCNet(谭鑫) 镜面 2022(IEEE-TPAMI) Visual Chirality Cue 借助反射内容的视觉手性作为镜面线索
SATNet 镜面 2023 (AAAI) 基于Transformer,利用真实物体与其镜中反射之间的松散对称性
VMD-Net(谭鑫) 镜面 2023 (CVPR) 视频镜面
CSFwinformer(王森) 镜面 2024 (TIP) 跨空间-频率窗口Transfromer:SFWA对齐空间/频域纹理;DWA做全局建模;CMCC跨模态对比融合 空间-频率特征(跨模态)、图像纹理特征
GDNet 玻璃 2020 (CVPR) 面向真实场景玻璃检测的基线与数据集;基于RGB线索学习玻璃区域
VBNet 玻璃 2024 利用视觉模糊性作为玻璃检测线索

四、镜面检测数据集

1.MSD (Mirror Segmentation Dataset,2019):简单场景

4018张 (训练3063 / 测试955)。包含3063张训练图像和955张测试图像,场景相对简单,与真实应用场景存在一定差距。该数据集是镜面分割任务的基础数据集之一,用于评估模型在常规场景下的分割能力。

2.PMD (Progressive Mirror Detection Dataset,2020):复杂真实场景

5667张 (训练5096 / 测试571)。是一个聚焦复杂真实场景的镜面检测数据集,包含5096张训练图像和571张测试图像,场景多样且具有挑战性。该数据集在镜面检测研究中被广泛用于评估模型在复杂场景下的性能。

3.VMD (Video Mirror Dataset):视频镜面检测数据集

包含269个视频、14988帧图像,覆盖真实生活场景(如家居、商业空间等),每帧都有像素级的镜面区域标注。用于视频镜面检测任务的基准测试

4.RGBD-Mirror dataset

用于RGB-D 镜面分割任务的专业数据集。包含3049组RGB图像、深度图及像素级镜面真值掩码。

五、组内发表的相关论文

1.CSFwinformer

CSFwinformer: Cross-Space-Frequency Window Transformer for Mirror Detection:跨空间频率窗口转换器,用于镜面检测

1.代码:
https://github.com/wangsen99/CSFwinformer

2.原理:

设计了一种跨模态学习方法,该方法同时捕捉空间频率特征来探索图像纹理和检测镜面区域。
对齐 - 扩张 - 融合

(1)SFWA (Spatial-Frequency Window Alignment,空间频率窗口对齐模块):在窗口内,对图像中的空间特征和频率特征进行对齐,并计算窗口单位的跨模态特征亲和力,以减少计算负载

(2)DWA (Dilated Window Attention,扩展窗口注意):解决SFWA模块的局部特征建模问题,DWA模块通过膨胀卷积(dilated convolution)来扩展感受野,从而提取全球上下文特征。通过不同大小的膨胀窗口,DWA能够连接不同的窗口区域,捕捉镜面区域的全局信息,从而提高镜面检测的准确性 。

(3)CMCC(Cross-Modality Context Contrast,跨模态上下文对比模块):跨模态融合空间信息和频率信息

3.实验结果:

CSFwinformer在PMD、MSD、RGBD-Mirror三套镜面数据集上优于SOTA,并在镜面检测上显著地提高了SAM的性能

2.VMD-Net:Video Mirror Detection

《Learning to Detect Mirrors from Videos via Dual Correspondences》

3. 《Glass Makes Blurs: Learning the Visual Blurriness for Glass Surface Detection》

4.Visual Chirality Cue

六、镜面检测的方法 (新老对比)

对比传统方法和最新方法的不同。

传统方法主要依赖手工特征,比如颜色、纹理、边缘特征,或者利用镜面内外的内容差异。这些方法在复杂场景中容易失效,因为手工特征难以捕捉高层语义。

而最新方法基于深度学习,尤其是CNN和Transformer,能够自动学习更复杂的特征。

在最新的方法中,注意到Transformer的应用越来越广泛,比如SATNet和CSFwinformer,它们利用自注意力机制处理长距离依赖,甚至结合频率域信息。另外,多模态输入也是一个趋势,比如结合深度信息(PDNet)或偏振光信息,这些在传统方法中很少见。

相关推荐
_codemonster9 小时前
计算机视觉入门到实战系列(九) SIFT算法(尺度空间、极值点判断)
深度学习·算法·计算机视觉
莫非王土也非王臣9 小时前
TensorFlow中卷积神经网络相关函数
人工智能·cnn·tensorflow
焦耳热科技前沿9 小时前
西华大学Adv. Sci.:超高温焦耳热冲击制备拓扑缺陷碳,用于催化碳纳米管可控生长
大数据·人工智能·能源·材料工程·电池
亿坊电商9 小时前
AI数字人开发框架如何实现多模态交互?
人工智能·交互
GOSIM 全球开源创新汇9 小时前
科班出身+跨界双轨:陈郑豪用 AI 压缩技术,让 4K 游戏走进普通设备|Open AGI Forum
人工智能·游戏·agi
sinat_2869451910 小时前
AI Coding LSP
人工智能·算法·prompt·transformer
IT_陈寒10 小时前
Java并发编程实战:从入门到精通的5个关键技巧,让我薪资涨了40%
前端·人工智能·后端
码上宝藏10 小时前
ComfyUI新插件上线!多模态多视角生成,中文场景适配拉满——手把手教你玩转ComfyUI-qwenmultiangle
人工智能·comfyui
故乡de云10 小时前
Google Cloud与AWS大数据AI服务对比:2026年企业选型指南
大数据·人工智能·aws