yoloVV11 SPPF篇 | 2024最新AIFI模块改进特征金字塔网络

SPPF篇 | 2024最新AIFI模块改进特征金字塔网络

RTDETR模型去替换SPPF,

基于Transformer检测方法，他对特征更加深入，将RTDETR内现金模块融入到yolov11内，

precision,表示精确率

recall,召回率，

基于端到端的变换器，他高计算成本，

我么你分析NMS对现在的实时目标检测准确度的负面影响，

提出实时检测变换器RTDETR

我们所知道的实时端到端目标检测器，我么你设计高效混合编码，通过解耦内部的尺度交互和跨尺度融合，去有效的处理多尺度特征

去提出感知IOU查询选择，通过解码器去提供高质量的初始对象查询进一步提高的性能

基于端到端，的变换器的目标检测器，缺点DETRS计算太高

实时检测变换器RTDETR,第一个实时端到端检测目标检测器

设计高效的混合编码器，通过把内部的尺度交互和跨尺度的融合两步拆开来

去使用解码器层，去灵活的调制推理速度，对实时场景有用

AIFI，原理，

RTDETR,是AIF基于注意力的内部尺度特征交互，模块的关键组件

和CNN基于跨尺度特征融合融合构成编码器

1、基于注意力特征处理，AIFI模块利用自我注意力机制去处理图像中的高级特征，允许模块处理特定数据，该方法，适用于处理具有丰富语义信息的高级图像特征

2、选择特征的交互，AIFI模块专注于高级层上，进行内部尺度的交互，基于认识到高级特征层包含的更丰富的语义概念。更有效捕获图像概念和实体内的联系，

总结，AIFI模块，主要思想是通过自我注意力机制专注与处理高级图像的特征，从而提高模型的在对象检测识别方面的性能，降低计算量

AIFI主要特点是，

1、减少计算冗余，进一步减少基于变体D的冗余u计算，

2、高级特征的自我注意力操作，模块对丰富语义概念的高级特征的应用具有自我注意力操作，能够捕获图像中的概念和实体之间的联系

3、避免低级的特征和内部的尺度交互，对于低级特在缺乏让语义概念

4、专注于S5级别，该模块主要孤雁主语高级特征

1、最左侧是输入图像，首先进入backbone骨干模块，作用对于输入图像进行初步特征提取

作用，对于输入图像的输出，将原始图像进行初步额特征提取，转换为不同的尺度，包含不同的语义信息特征图，S3下采用，S4不变，S5下采用放大

2、eff高效混合编码器，

backbone输出的多尺度特征，进入Eff中，有两部分构成

1、AIFI模块

功能，但尺度特征交互

AIFI借助自注意力机制让，同一尺度的特征，能够动态的计算每个位置与其他位置的关联权重，强化关键区域的特征，

2、CCFM模块

功能，跨尺度特征融合

接受AIFI模块的的单尺度特征后，将backbone输出的多尺度特征进行多次融合操作，将不同的尺度的上下文信息整合到一起，生成更加全面的多尺度特征，

3、IOU感知查询选择

将上述输出的多尺度特征进入该模块，

功能，为后续的Decoder提高高质量的初始查询信息

查询机制是Transformer解码器的核心输入，

IOU意味着选择查询会结合IOU交并比（先演框，Iou反应预测框和真是框的重叠度，）进而去筛选更多的对于真是目标的查询，去提高效率

4、Decode,head解码器和检测头

经过IOU层的查询选择特征后，进入解码器的特征和Encoder特征的交互（类似于Transformer的经典流程）编码--解码流程

最后特征进入detection-head检测头

检测头通常包含分类分支（判断其类别）和回归分支（预测其目标边框），

5、右侧小图卷积层，

包含11----33卷积操作，，BN归一化，，Silu激活函数，