Deformable DETR中的look forword once

在DINO中正对Deformable DETR中的look forward once做了改进

左图是Deformable DETR,右图是DINO

Look Forward Once对应的代码部分:

怎么理解iterative box refinement 可以阻止梯度反向传播来稳定训练?

python 复制代码
reference_points = new_reference_points.detach()
  • 什么是梯度切断? 切断梯度表示阻止反向传播的梯度从当前层的 reference_points 传播到上一层。也就是说,后续层的梯度不会影响前一层生成的边界框参考点。

  • 实现效果: 每一层的 reference_points 是通过当前层的预测生成的,但它不会受到后续层优化路径的影响,从而确保预测的独立性。

代码解析

1. DeformableTransformerDecoder中的self.box_embed不是赋值为None吗?在哪儿改变的值?

解答:

  • self.bbox_embed 被克隆为多个独立的实例,每个解码器层对应一个独立的 bbox_embed 模块。
  • 然后,self.bbox_embed 被赋值到 self.transformer.decoder.bbox_embed
  • 这一赋值操作是外部对 DeformableTransformerDecoder.bbox_embed 的修改。
相关推荐
春日见6 小时前
自驾算法的日常工作?如何提升模型性能?
linux·人工智能·机器学习·计算机视觉·自动驾驶
我材不敲代码7 小时前
OpenCV实战:全自动答题卡识别与评分系统
人工智能·opencv·计算机视觉
不熬夜的熬润之10 小时前
APCE-平均峰值相关能量
人工智能·算法·计算机视觉
li三河11 小时前
opencv利用freetype写中文
人工智能·opencv·计算机视觉
badhope12 小时前
10个高星GitHub项目推荐
python·深度学习·计算机视觉·数据挖掘·github
努力的小白o(^▽^)o15 小时前
食品分类任务
人工智能·深度学习·计算机视觉
懷淰メ15 小时前
python3GUI---基于PyQt5+YOLOv8+DeepSort的智慧行车可视化系统(详细介绍)
开发语言·yolo·计算机视觉·pyqt·yolov8·deepsort·车距
硅谷秋水16 小时前
世界链:潜运动中的世界模型思维
深度学习·计算机视觉·语言模型·机器人
AI科技星16 小时前
基于四维时空光速不变公设的量子几何与量子力学本质全维度推导验证
开发语言·人工智能·opencv·计算机视觉·数学建模·r语言
沃达德软件16 小时前
5G技术推动移动视频监控
人工智能·深度学习·5g·目标检测·机器学习·计算机视觉