detr论文基础阅读

这个是摘要，将物体检测视为一个直接的集合预测问题。移除非最大抑制过程或者喵框生成。新框架的主要组成部分，成为detection transformer，detr,是一个基于集合的全局损失，通过二分配强制唯一的预测，并采用一个transformer编码器-解码器架构。给定一个固定的小集合学习的物体查询，detr通过推理物体之间的关系和全局图像上下文，直接并行输出最终的预测集合。

引言中的第一段。物体检测的目标就是预测每个感兴趣物体的边界框和类别标签。现代检测器就是定义大量候选框、喵框或窗口中心上的回归和分类问题。性能在很大程度上受后处理步骤的影响，这些步骤用于合并近重复的预测，受到喵框集合设计的影响，还受到将目标狂分配给喵框的启发式方法的影响。为了解决这些流程，提出一种直接的集合预测方法，

输入一个图像到卷积神经网络，输出一个特征图。然后进入transformer的编码器和解码器，输出框预测的集合。这个transformer部分就是对CNN提取地特征进行全局建模和关系推理，最终并行地生成一组固定数量地预测框。编码器将CNN的特征图编码成一个序列，解码器结合一组可学习的对象查询，解码出最终的预测结果。关键点：transformerhi并行输出N个预测结果，每个预测包含一个边界框，一个类别标签和一个置信度

二分图匹配：模型输出的是一个无序的集合，真实标注也是无序的集合，我们需要知道哪个预测对应哪个真实框/使用匈牙利算法来做最优二分图匹配，将N个预测框和M个真实框匹配，使得总匹配代价最小匹配代价=分类损失+边界框回归损失

下面的大段内容就是：我们将物体检测视为直接的集合预测问题。基础transformer的编码器-解码器架构，这是一个广泛用于序列预测的流行架构。transformer的自注意力机制能够显式地建模序列中元素之间的所有成对交互，使得这些架构特别适合解决集合预测中的特定约束，比如去除重复预测。我们的detection transformer一次性预测所有物体，并通过一个集合损失函数进行端到端训练。该损失函数通过二分匹配将预测对象和真实标注对象进行配对。DETR通过去除多个手工设计的编码先验知识的组件简化了检测流程。DETR不需要任何定制的层，可以轻松在包含标准CNN和Transformer类的任何框架中重现

detr的主要特地那是二分匹配损失与transformer结合使用，采用非自回归的并行解吗。我们的匹配损失函数将每个预测唯一地分配给一个真实标注对象，并且对预测对象的排列并不敏感，因此可以并行地发出这些预测

相关工作

开头说我们的工作建立在多个领域的先前研究基础上：用于集合预测的二分匹配损失、基于transformer的编码器-解码器架构、并行解码以及物体检测方法

然后说没有一种标准的深度学习模型可以直接预测集合。基本的集合预测任务是多标签分类，并不适合检测，因为检测问题·中元素之间存在潜在的结果，近似相同的框。这些任务中的第一个难点是避免近重复.yolo这样的就是使用NMS。但直接的集合预测是无后处理的，需要全局推理机制，能够建模所有预测元素之间的交互，避免冗余。一个通用方法是使用自回归序列模型，如递归神经网络。在所有这些情况下，损失函数应该对预测的排列不变。通常的解决方案是设计一个基于匈牙利算法 $20$ 的损失函数，用于在真实标注与预测之间找到二分匹配。这确保了排列不变性，并保证每个目标元素有一个唯一的匹配。然而，与大多数先前的工作不同，我们摒弃了自回归模型（自回归模型就是基于历史数据来预测当前或未来数据的模型）

再下面介绍了transformer

然后说：在我们的模型中，我们能够去除这种手工设计的过程，通过直接预测相对于输入图像的绝对框预测集来简化检测过程，而不是依赖锚框。

基于集合的损失：一些物体检测器使用了二分匹配损失，但是在这些早期的深度学习模型中，不同预测的关系仅仅通过卷积或全连接层来建模，通过手工设计的NMS进行后处理。更近期的检测器使用不唯一分配规则，在真实标注和预测之间进行匹配，并结合使用NMS

然后介绍我们的detr model的两个关键要素是：一个集合预测损失，强制预测框与真实标注框之间的唯一匹配一种架构：在一次传递中预测一组物体并建模它们之间的关系

(采用临时目录去下载需要先gitclone然后那之后进行下载的包）

反正都是一些介绍detr的东西

对应的话对于序列并不敏感，并行。

相关工作：我们的工作建立在先前的研究之上，用于集合预测的二分图匹配损失，基于transformer的编码器-解码器架构、并行解码机制，以及已有的目标检测方法（我写的很乱）

canonical 标准的、典型的、被广泛认可的

mutilabel 多标签的

classification 分类

near-duplicates 近似重复项、几乎一样的预测

postprocessing 后处理

interaction 相互作用

constant 固定的、不变的

auto-regressive 自回归

permutation 排列

Hungarian algorithm 匈牙利算法

bipartite 二分图

aggregate 聚合、汇总、聚集

element 元素、成分

computation 计算、运算

natural 自然的，天然的

prohibitive 高得令人望而却步的

proportional 成比例的、相称的

demonstrate 证明、展示、表明

streamline 简化、使流程更高效

convolutional 卷积的

assignment 分配，指派

explicitly 显式地，明确地

additional 额外的，附加的

hand-craft 手工设计的

context 上下文，语境

proposal 候选区域、建议框

coordinate 坐标

instance 实例，个体

(pip install -e . --no-build-isolation 很神奇的一个东西）

（如果是从github上下载失败，不如问一下有没有其他可以使用下载包的替代方案）

fixed-size 固定大小的

typical 典型的、常见的

denote 表示、记作

permutation 排列、置换

vector 向量

coordinate 坐标

notation 符号表示法、记号

heuristic 启发式的、经验规则

detector 检测器

duplicate 重复项、副本

optimal 最佳的最优的最理想的

Detr通过解码器的一次前向传播，推断出一个固定大小为N的预测集合。其中，N被设定为显著大于图像中典型物体数量的值。

训练过程中的主要难点之一，是如何将预测对象（类别、位置、尺寸）与真实标签进行评分或匹配

（之前有用lou或anchor匹配规则来分配预测与真实框的关系。detr面临的问题是：他输出的是一个无序的集合，没有预设的哪个预测对应哪个真实目标，需要全局最优匹配策略）

用y表示真实物体集合，用 ŷ = {ŷᵢ}ᵢ₌₁ᴺ表示N个预测结果的集合。假设N大于图像中物体的数量，我们将y视为一个大小为N的集合，并用无物体进行填充。为了在这两个集合之间找到一个二分匹配，我们寻找一个具有最低成本的N个元素的排列

take into account 考虑、顾及某因素

element 数学/编程中：集合、数组、向量或矩阵中的一个成员或项

vector 向量

coordinate 坐标

notation 表示法、符号系统

duplicate 复制、重复

compute 计算

combination 组合（不考虑顺序的选择方式）

继续看：

在目标检测任务中，模型会输出大量的预测框，但图像中实际存在的目标数量（真实框）通常很少。为了计算损失函数，我们需要知道哪个预测框应该与哪个真实框配对进行比较，这个过程叫做匹配

传统的做法是使用LOU交并比阈值来硬性匹配。现代目标检测算法引入了二分图匹配的思想，使用匈牙利算法来找到全局最优的一对一匹配方案

匹配成本不仅考虑类别预测的准确性，还考虑预测框和真实框在位置大小上的重合程度

recall 不下降 precision尽可能提高是在评估分类模型（尤其是二分类问题，如目标检测、信息检索、医学诊断）性能时常见的优化目标

混淆矩阵：假设有一个二分类问题，样本分为正类和负类，模型的预测结果与真实标签组合形成四个基本统计量

预测为正类：真实为正类 TP 正确预测

预测为正类，真实为假类 FP误报

预测为假类，真实为假类 TN 正确预测

预测为假类，真实为真类 FN 漏报

这个是召回率真正的正类比上真正的正类+虚假的假类漏报尽可能的找

精确率就是误报尽可能地少

保证不漏检地的情况下，尽量减少误检

（发现一个好方法，就是如果缺少一行可以自己补齐，这样对整体指标的影响并不大

暂时先读到这里