Deformable DETR中的look forword once

在DINO中正对Deformable DETR中的look forward once做了改进

左图是Deformable DETR,右图是DINO

Look Forward Once对应的代码部分:

怎么理解iterative box refinement 可以阻止梯度反向传播来稳定训练?

python 复制代码
reference_points = new_reference_points.detach()
  • 什么是梯度切断? 切断梯度表示阻止反向传播的梯度从当前层的 reference_points 传播到上一层。也就是说,后续层的梯度不会影响前一层生成的边界框参考点。

  • 实现效果: 每一层的 reference_points 是通过当前层的预测生成的,但它不会受到后续层优化路径的影响,从而确保预测的独立性。

代码解析

1. DeformableTransformerDecoder中的self.box_embed不是赋值为None吗?在哪儿改变的值?

解答:

  • self.bbox_embed 被克隆为多个独立的实例,每个解码器层对应一个独立的 bbox_embed 模块。
  • 然后,self.bbox_embed 被赋值到 self.transformer.decoder.bbox_embed
  • 这一赋值操作是外部对 DeformableTransformerDecoder.bbox_embed 的修改。
相关推荐
AIGCmitutu4 小时前
Ps怎么把图片2D转3D?新手图文详细教程!
计算机视觉·photoshop·ps·美工
Dfreedom.10 小时前
图像灰度处理与二值化
图像处理·人工智能·opencv·计算机视觉
Fxrain11 小时前
[Reading Paper]FFA-Net
图像处理·人工智能·计算机视觉
qwy71522925816314 小时前
9-数字水印的嵌入和提取
人工智能·opencv·计算机视觉
Piar1231sdafa15 小时前
蓝莓目标检测——改进YOLO11-C2TSSA-DYT-Mona模型实现
人工智能·目标检测·计算机视觉
你再说一遍?36417 小时前
计算机视觉实训作业记录:基于 YOLOv12 的水下目标检测模型优化与实现
yolo·目标检测·计算机视觉
星爷AG I18 小时前
9-19 视觉识别(AGI基础理论)
人工智能·计算机视觉·agi
小金子会发光19 小时前
【工业相机实战】基于 C# WinForms 的映美精(ic4)相机采集与显示全流程实现
计算机视觉·c#·视觉检测·visual studio
爱打代码的小林19 小时前
基于 OpenCV 的摄像头四格实时风格迁移实现
人工智能·opencv·计算机视觉
一招定胜负19 小时前
Haar级联人脸检测、LBPH与Eigenfaces人脸识别
opencv·计算机视觉