Deformable DETR中的look forword once

在DINO中正对Deformable DETR中的look forward once做了改进

左图是Deformable DETR,右图是DINO

Look Forward Once对应的代码部分:

怎么理解iterative box refinement 可以阻止梯度反向传播来稳定训练?

python 复制代码
reference_points = new_reference_points.detach()
  • 什么是梯度切断? 切断梯度表示阻止反向传播的梯度从当前层的 reference_points 传播到上一层。也就是说,后续层的梯度不会影响前一层生成的边界框参考点。

  • 实现效果: 每一层的 reference_points 是通过当前层的预测生成的,但它不会受到后续层优化路径的影响,从而确保预测的独立性。

代码解析

1. DeformableTransformerDecoder中的self.box_embed不是赋值为None吗?在哪儿改变的值?

解答:

  • self.bbox_embed 被克隆为多个独立的实例,每个解码器层对应一个独立的 bbox_embed 模块。
  • 然后,self.bbox_embed 被赋值到 self.transformer.decoder.bbox_embed
  • 这一赋值操作是外部对 DeformableTransformerDecoder.bbox_embed 的修改。
相关推荐
jndingxin18 小时前
OpenCV图像注册模块
人工智能·opencv·计算机视觉
荼蘼18 小时前
OpenCv(三)——图像平滑处理
人工智能·opencv·计算机视觉
Monkey PilotX18 小时前
机器人“ChatGPT 时刻”倒计时
人工智能·机器学习·计算机视觉·自动驾驶
程序猿小D1 天前
【完整源码+数据集+部署教程】孔洞检测系统源码和数据集:改进yolo11-RetBlock
yolo·计算机视觉·毕业设计·数据集·yolo11·孔洞检测
图灵学术计算机论文辅导1 天前
傅里叶变换+attention机制,深耕深度学习领域
人工智能·python·深度学习·计算机网络·考研·机器学习·计算机视觉
Struart_R1 天前
SpatialVLM和SpatialRGPT论文解读
计算机视觉·语言模型·transformer·大语言模型·vlm·视觉理解·空间推理
软件测试-阿涛2 天前
【AI绘画】Stable Diffusion webUI 常用功能使用技巧
人工智能·深度学习·计算机视觉·ai作画·stable diffusion
荼蘼2 天前
OpenCv(二)——边界填充、阈值处理
人工智能·opencv·计算机视觉
思通数据2 天前
AI视频监控:重构安防行业智能化新生态
人工智能·安全·目标检测·机器学习·计算机视觉·重构·数据挖掘
CV实验室2 天前
ICCV 2025 | 4相机干掉480机位?CMU MonoFusion高斯泼溅重构4D人体!
人工智能·数码相机·计算机视觉·论文