YOLOv12:以注意力为中心的实时目标检测器

0.论文摘要
长期以来,增强YOLO框架的网络架构一直至关重要,但主要集中在基于CNN的改进上,尽管注意力机制在建模能力上已被证明具有优越性。这是因为基于注意力的模型无法与基于CNN的模型在速度上相匹敌。本文提出了一种以注意力为核心的YOLO框架,即YOLOv12,它在保持与之前基于CNN模型相同速度的同时,充分利用了注意力机制的性能优势。
YOLOv12在精度上超越了所有流行的实时目标检测器,同时保持了具有竞争力的速度。例如,YOLOv12-N在T4 GPU上实现了40.6%的mAP,推理延迟为1.64毫秒,优于先进的YOLOv10-N / YOLOv11-N,mAP分别提升了2.1%/1.2%,且速度相当。这一优势在其他模型规模上也得以延续。YOLOv12还超越了改进DETR的端到端实时检测器,如RT-DETR / RTDETRv2:YOLOv12-S在运行速度上比RT-DETR-R18 / RTDETRv2 R18快42%,仅使用了36%的计算量和45%的参数。更多对比详见图1。

图1. 与其他流行方法在延迟-精度(左)和FLOPs-精度(右)权衡方面的比较。
1.引言
实时目标检测因其低延迟特性而一直备受关注,提供了显著的实用性[4, 17, 24, 28]。其中,YOLO系列[3, 24, 28, 29, 32, 45--47, 53, 57, 58]在延迟与精度之间有效建立了最佳平衡,从而主导了这一领域。尽管YOLO的改进主要集中在损失函数[8, 35, 43, 44, 48, 67, 68]、标签分配[22, 23, 34, 59, 69]等方面,但网络架构设计仍然是关键的研究重点[24, 28, 32, 57, 58]。尽管以注意力为核心的视觉Transformer(ViT)架构已被证明具有更强的建模能力,即使在小模型中也是如此[20, 21, 25, 50],但大多数架构设计仍然主要集中于CNN。
造成这种情况的主要原因在于注意力机制的效率低下,这主要来自两个因素:二次计算复杂度和注意力机制的低效内存访问操作(后者是FlashAttention [13, 14] 主要解决的问题)。因此,在相似的计算预算下,基于CNN的架构比基于注意力的架构性能高出约3倍 [38],这极大地限制了注意力机制在YOLO系统中的采用,因为YOLO系统对高推理速度有严格要求。
本文旨在解决这些挑战,并进一步构建了一个以注意力为中心的YOLO框架,即YOLOv12。我们引入了三项关键改进。首先,我们提出了一种简单而高效的区域注意力模块(A2),该模块在保持大感受野的同时,以非常简单的方式降低了注意力的计算复杂度,从而提高了速度。其次,我们引入了残差高效层聚合网络(R-ELAN)以解决注意力引入的优化挑战(主要是大规模模型)。R-ELAN在原始ELAN [57]的基础上引入了两项改进:(i)采用缩放技术的块级残差设计;(ii)重新设计的特征聚合方法。第三,我们在传统注意力之外进行了一些架构改进,以适应YOLO系统。我们升级了传统的以注意力为中心的架构,包括:引入FlashAttention以克服注意力的内存访问问题,移除位置编码等设计以使模型快速且简洁,将MLP比率从4调整为1.2以平衡注意力与前馈网络之间的计算,从而获得更好的性能,减少堆叠块的深度以促进优化,并尽可能利用卷积算子以发挥其计算效率。
基于上述设计,我们开发了一个包含5种模型规模的新系列实时检测器:YOLOv12-N、S、M、L和X。我们在标准目标检测基准上进行了广泛的实验,遵循YOLOv11 [28]的方法,未使用任何额外技巧,结果表明YOLOv12在这些规模上相较于之前流行的模型,在延迟-精度和FLOPs-精度权衡方面提供了显著的改进,如图1所示。例如,YOLOv12-N实现了40.6%的mAP,比YOLOv10-N [53]高出2.1%的mAP,同时保持了更快的推理速度;与YOLOv11-N [28]相比,mAP高出1.2%,速度相当。这一优势在其他规模的模型中也保持一致。与RT-DETR-R18 [66] / RT-DETRv2R18 [40]相比,YOLOv12-S的mAP分别高出1.5%/0.1%,同时延迟速度提升了42%/42%,仅需它们36%/36%的计算量和45%/45%的参数。
总的来说,YOLOv12的贡献有两点:1)它建立了一个以注意力为核心的、简洁而高效的YOLO框架,通过方法创新和架构改进,打破了CNN模型在YOLO系列中的主导地位。2)在不依赖预训练等额外技术的情况下,YOLOv12以快速的推理速度和更高的检测精度实现了最先进的成果,展现了其潜力。
2.相关工作
实时目标检测
实时目标检测器因其重要的实用价值一直备受社区关注。YOLO系列[3, 9, 24, 28, 29, 32, 45--47, 53, 54, 57, 58]已成为实时目标检测的领先框架。早期的YOLO系统[45--47]从模型设计的角度为YOLO系列奠定了基础。YOLOv4[3]和YOLOv5[29]在框架中加入了CSPNet[55]、数据增强和多尺度特征。YOLOv6[32]进一步通过BiC和SimCSPSPPF模块优化了主干网络和颈部结构,并引入了锚点辅助训练。YOLOv7[57]引入了EELAN[56](高效层聚合网络)以改善梯度流动,并采用了多种免费技巧,而YOLOv8[24]则集成了高效的C2f模块以增强特征提取能力。在最近的迭代中,YOLOv9[58]引入了GELAN进行架构优化和PGI以提升训练效果,而YOLOv10[53]则通过双分配的无NMS训练实现了效率提升。YOLOv11[28]通过采用C3K2模块(GELAN[58]的一种变体)和检测头中的轻量级深度可分离卷积,进一步降低了延迟并提高了准确性。最近,一种端到端的目标检测方法RT-DETR[66]通过设计高效的编码器和不确定性最小的查询选择机制,改进了传统的端到端检测器[7, 33, 37, 42, 71],以满足实时需求。RTDETRv2[40]进一步通过免费技巧增强了其性能。与以往的YOLO系列不同,本研究旨在构建一个以注意力为中心的YOLO框架,以利用注意力机制的优势。
高效视觉Transformer
降低全局自注意力的计算成本对于在下游任务中有效应用视觉Transformer至关重要。PVT [61] 通过多分辨率阶段和下采样特征来解决这一问题。Swin Transformer [39] 将自注意力限制在局部窗口内,并通过调整窗口划分方式来连接非重叠窗口,从而在通信需求与内存和计算需求之间取得平衡。其他方法,如轴向自注意力 [26] 和十字交叉注意力 [27],在水平和垂直窗口内计算注意力。CSWin Transformer [16] 在此基础上引入了十字形窗口自注意力,并行计算沿水平和垂直条纹的注意力。此外,[12, 64] 等工作中建立了局部-全局关系,通过减少对全局自注意力的依赖来提高效率。Fast-iTPN [50] 通过令牌迁移和令牌聚集机制提高了下游任务的推理速度。一些方法 [31, 49, 60, 62] 使用线性注意力来降低注意力的复杂度。尽管基于Mamba的视觉模型 [38, 70] 旨在实现线性复杂度,但它们仍未达到实时速度 [38]。FlashAttention [13, 14] 识别出导致注意力计算效率低下的高带宽内存瓶颈,并通过I/O优化来解决这些问题,减少内存访问以提高计算效率。在本研究中,我们摒弃了复杂的设计,提出了一种简单的区域注意力机制来降低注意力的复杂度。此外,我们采用FlashAttention来克服注意力机制固有的内存访问问题 [13, 14]。
3.方法
本节介绍YOLOv12,这是从网络架构与注意力机制角度对YOLO框架的创新。
3.1 效率分析
注意力机制虽然在捕捉全局依赖关系和促进自然语言处理[5, 15]及计算机视觉[19, 39]等任务方面非常有效,但其本质上比卷积神经网络(CNN)速度更慢。造成这种速度差异的主要因素有两个。
复杂性。首先,自注意力操作的计算复杂度随着输入序列长度L呈二次方增长。具体来说,对于一个长度为L、特征维度为d的输入序列,注意力矩阵的计算需要O(L²d)次操作,因为每个标记都需要关注其他所有标记。相比之下,卷积神经网络(CNN)中的卷积操作在空间或时间维度上的复杂度是线性的,即O(kLd),其中k是卷积核大小,通常远小于L。因此,自注意力在计算上变得难以承受,特别是对于高分辨率图像或长序列等大规模输入。
此外,另一个重要因素是,大多数基于注意力的视觉Transformer由于其复杂的设计(例如,Swin Transformer中的窗口划分/反转[39])以及额外模块的引入(例如,位置编码),逐渐累积了速度开销,导致整体速度相比CNN架构较慢[38]。在本文中,设计模块采用了简洁的操作来实现注意力机制,最大限度地确保了效率。
计算。其次,在注意力计算过程中,内存访问模式相比卷积神经网络(CNN)效率较低[13, 14]。具体来说,在自注意力机制中,中间映射如注意力映射(QKT)和softmax映射(L × L)需要从高速GPU SRAM(实际计算位置)存储到高带宽GPU内存(HBM),并在后续计算中重新读取,而前者的读写速度是后者的10倍以上,因此导致了显著的内存访问开销和增加的时钟时间1。此外,注意力机制中的不规则内存访问模式相比CNN引入了进一步的延迟,CNN利用结构化和局部化的内存访问。CNN受益于空间受限的卷积核,由于其固定的感受野和滑动窗口操作,能够实现高效的内存缓存和减少延迟。
这两个因素,即二次计算复杂度和低效的内存访问,共同导致注意力机制比卷积神经网络(CNN)更慢,特别是在实时或资源受限的场景中。解决这些限制已成为一个关键的研究领域,诸如稀疏注意力机制和内存高效近似(例如Linformer [60]或Performer [11])等方法旨在缓解二次扩展问题。
3.2 区域注意力
一种降低普通注意力计算成本的简单方法是使用线性注意力机制 [49, 60],它将普通注意力的复杂度从二次降低到线性。对于一个维度为 ( n , h , d ) (n, h, d) (n,h,d) 的视觉特征 f f f,其中 n n n 是 token 的数量, h h h 是头的数量, d d d 是头的大小,线性注意力将复杂度从 2 n 2 h d 2n²hd 2n2hd 降低到 2 n h d 2 2nhd² 2nhd2,由于 n > d,从而减少了计算成本。然而,线性注意力存在全局依赖退化 [30]、不稳定性 [11] 和分布敏感性 [63] 的问题。此外,由于低秩瓶颈 [2, 10],当应用于输入分辨率为 640 × 640 的 YOLO 时,其速度优势有限。
一种有效降低复杂度的替代方法是局部注意力机制(例如,Shift窗口[39]、交叉注意力[27]和轴向注意力[16]),如图2所示,它将全局注意力转化为局部注意力,从而降低计算成本。然而,将特征图划分为窗口可能会引入额外开销或缩小感受野,影响速度和准确性。在本研究中,我们提出了一种简单而高效的区域注意力模块。如图2所示,分辨率为 ( H , W ) (H, W) (H,W)的特征图被划分为l个大小为 ( H / l , W ) (H/l, W) (H/l,W)或 ( H , W / l ) (H, W/l) (H,W/l)的片段。这消除了显式的窗口划分,仅需简单的重塑操作,从而实现了更快的速度。我们经验性地将l的默认值设为4,将感受野缩小到原来的1/4,但仍保持了较大的感受野。通过这种方法,注意力机制的计算成本从 2 n 2 h d 2n²hd 2n2hd降低到 1 / 2 n 2 h d 1/2n²hd 1/2n2hd。我们表明,尽管复杂度为 n 2 n² n2,当 n n n固定为640时(如果输入分辨率增加, n n n也会增加),这仍然足够高效,能够满足YOLO系统的实时需求。有趣的是,我们发现这种修改对性能的影响很小,但显著提高了速度。
图2. 代表性局部注意力机制与我们的区域注意力的比较。区域注意力采用最直接的等分方式,将特征图垂直或水平划分为 l l l个区域(默认值为4)。这种方法在避免复杂操作的同时,确保了较大的感受野,从而实现了高效率。
3.3 残差高效层聚合网络
高效层聚合网络(ELAN)[57]旨在改进特征聚合。如图3(b)所示,ELAN将过渡层(1×1卷积)的输出进行分割,通过多个模块处理其中一个分割部分,然后将所有输出拼接起来,并应用另一个过渡层(1×1卷积)以对齐维度。然而,如[57]所分析,这种架构可能会引入不稳定性。我们认为,这种设计会导致梯度阻塞,并且缺乏从输入到输出的残差连接。此外,我们围绕注意力机制构建网络,这带来了额外的优化挑战。经验表明,L尺度和X尺度模型要么无法收敛,要么保持不稳定,即使使用Adam或AdamW优化器也是如此。

图3. 与流行模块的架构对比,包括:(a) CSPNet [55], (b) ELAN [56], © C3K2(GELAN的一个案例)[28, 58], 以及 (d) 提出的R-ELAN(残差高效层聚合网络)。
为了解决这个问题,我们提出了残差高效层聚合网络(R-ELAN),如图3(d)所示。相比之下,我们在整个模块中引入了从输入到输出的残差捷径,并带有一个缩放因子(默认值为0.01)。这种设计与层缩放[52]类似,后者被引入用于构建深度视觉Transformer。然而,对每个区域注意力应用层缩放并不能克服优化挑战,并且会引入延迟增加的问题。这表明注意力机制的引入并不是收敛的唯一原因,而是ELAN架构本身,这验证了我们R-ELAN设计背后的合理性。
我们还设计了一种新的聚合方法,如图3(d)所示。原始的ELAN层首先通过一个过渡层处理模块的输入,然后将其分为两部分。其中一部分由后续的块进一步处理,最后将两部分拼接以生成输出。相比之下,我们的设计应用了一个过渡层来调整通道维度,并生成单一的特征图。该特征图随后通过后续的块进行处理,再进行拼接,形成瓶颈结构。这种方法不仅保留了原始的特征整合能力,还降低了计算成本和参数/内存使用量。
3.4 架构改进
在本节中,我们将介绍整体架构以及对原始注意力机制的一些改进。其中部分改进并非我们最初提出的。
许多以注意力为核心的视觉变换器采用简洁风格的架构设计[1, 18, 19, 21, 25, 51],而我们则保留了先前YOLO系统的分层设计[3, 24, 28, 29, 32, 45--47, 53, 57, 58],并将证明这种设计的必要性。我们移除了在骨干网络最后阶段堆叠三个块的设计,这一设计在最近的版本中出现过[24, 28, 53, 58]。相反,我们仅保留了一个R-ELAN块,减少了总块数并有助于优化。我们从YOLOv11[28]继承了骨干网络的前两个阶段,并且没有使用所提出的R-ELAN。
此外,我们对原始注意力机制中的多个默认配置进行了修改,以更好地适应YOLO系统。这些修改包括将MLP比例从4调整为1.2(对于N- / S- / M-scale模型调整为2),以更好地分配计算资源,从而提升性能;采用nn.Conv2d+BN代替nn.Linear+LN,以充分利用卷积算子的效率;移除位置编码,并引入一个大的可分离卷积(7×7)(即位置感知器),以帮助区域注意力感知位置信息。这些修改的有效性将在第4.5节中得到验证。
4.实验
本节分为四个部分:实验设置、与流行方法的系统对比、验证我们方法的消融研究,以及通过可视化分析进一步探索YOLOv12。
4.1 实验设置
我们在MSCOCO 2017数据集[36]上验证了所提出的方法。YOLOv12系列包括5个变体:YOLOv12-N、YOLOv12-S、YOLOv12-M、YOLOv12-L和YOLOv12-X。所有模型均使用SGD优化器训练600个epoch,初始学习率为0.01,与YOLOv11[28]保持一致。我们采用线性学习率衰减策略,并在前3个epoch进行线性预热。根据[53, 66]中的方法,所有模型的延迟均在T4 GPU上使用TensorRT FP16进行测试。
基线。我们选择YOLOv11 [28]的先前版本作为基线。模型缩放策略也与其保持一致。我们使用了其提出的几个C3K2模块(这是GELAN [58]的一种特殊情况)。我们没有使用YOLOv11 [28]之外的任何技巧。
4.2 与最新技术的比较
我们在表1中展示了YOLOv12与其他流行的实时检测器的性能对比。

表1. 与流行的实时目标检测器的对比。所有结果均使用640×640的输入获得。
在N尺度模型上,YOLOv12-N在mAP指标上分别比YOLOv6-3.0-N [32]、YOLOv8-N [58]、YOLOv10-N [53]和YOLOv11 [28]高出3.6%、3.3%、2.1%和1.2%,同时保持了相似甚至更少的计算量和参数量,并实现了1.64毫秒/图像的快速延迟速度。
对于S尺度模型,YOLOv12-S拥有21.4G的FLOPs和9.3M的参数,以2.61毫秒/图像的延迟实现了48.0的mAP。它在保持相似或更少计算量的情况下,分别比YOLOv8-S [24]、YOLOv9-S [58]、YOLOv10-S [53]和YOLOv11-S [28]高出3.0%、1.2%、1.7%和1.1%。与端到端检测器RT-DETR-R18 [66] / RT-DETRv2R18 [41]相比,YOLOv12-S在性能上具有可比性,但在推理速度、计算成本和参数数量上表现更优。
对于M尺度模型,YOLOv12-M拥有67.5G FLOPs和20.2M参数,实现了52.5 mAP的性能和4.86 ms/图像的速度。与GoldYOLO-M [54]、YOLOv8-M [24]、YOLOv9-M [58]、YOLOv10 [53]、YOLOv11 [28]以及RT-DETR-R34 [66] / RT-DETRv2-R34 [40]相比,YOLOv12-S具有显著优势。
在X尺度模型上,YOLOv12-X显著优于YOLOv10-X [53] / YOLOv11-X [28],分别提升了0.8%和0.6%,同时在速度、FLOPs和参数量上保持相当。YOLOv12-X再次超越了RT-DETR-R101 [66] / RT-DETRv2-R101 [40],具有更快的速度、更少的FLOPs(减少23.4%)和更少的参数量(减少22.2%)。
4.3 消融实验
• R-ELAN。表2评估了所提出的残差高效层网络(R-ELAN)在YOLOv12-N/L/X模型中的有效性。结果揭示了两点关键发现:(i)对于像YOLOv12-N这样的小模型,残差连接不会影响收敛,但会降低性能。相比之下,对于较大的模型(YOLOv12L/X),它们对于稳定训练至关重要。特别是,YOLOv12-X需要一个最小的缩放因子(0.01)来确保收敛。(ii)所提出的特征集成方法有效降低了模型在FLOPs和参数量方面的复杂性,同时保持了可比的性能,仅略有下降。

表2. 对提出的残差高效层聚合网络(R-ELAN)的消融实验。Vanilla:使用原始的ELAN设计;Re-Aggre.:采用我们提出的特征集成方法;Resi.:利用残差块技术;Scaling:残差连接的缩放因子。
• 区域注意力机制。我们进行了消融实验以验证区域注意力机制的有效性,结果如表3所示。评估在YOLOv12 N/S/X模型上进行,测量了在GPU(CUDA)和CPU上的推理速度。CUDA结果使用RTX 3080和A5000获得,而CPU性能则在Intel Core i7-10700K @ 3.80GHz上测量。结果表明,区域注意力机制带来了显著的加速效果(")。例如,在RTX 3080上使用FP32时,YOLOv12-N的推理时间减少了0.7ms。这种性能提升在不同模型和硬件配置中均得到了一致的观察。我们在本实验中未使用FlashAttention [13, 14],因为它会显著缩小速度差异。
4.4 速度比较
表4展示了在不同GPU上对YOLOv9 [58]、YOLOv10 [53]、YOLOv11 [28]以及我们的YOLOv12在RTX 3080、RTX A5000和RTX A6000上使用FP32和FP16精度的推理速度进行对比分析。为确保一致性,所有结果均在同一硬件上获得,并且YOLOv9 [58]和YOLOv10 [53]使用ultralytics [28]的集成代码库进行评估。结果表明,YOLOv12的推理速度显著高于YOLOv9 [58],同时与YOLOv10 [53]和YOLOv11 [28]保持相当。例如,在RTX 3080上,YOLOv9的推理时间为2.4毫秒(FP32)和1.5毫秒(FP16),而YOLOv12N的推理时间为1.7毫秒(FP32)和1.1毫秒(FP16)。在其他配置中也观察到类似的趋势。
图4展示了更多的对比结果。左子图展示了YOLOv12与流行方法在精度-参数量之间的权衡对比,YOLOv12在此方面建立了明显的优势边界,甚至超越了参数量显著减少的YOLOv10,充分展示了YOLOv12的有效性。右子图比较了YOLOv12与之前YOLO版本在CPU上的推理延迟(所有结果均在Intel Core i7-10700K @ 3.80GHz上测得)。如图所示,YOLOv12以更具优势的边界超越了其他竞争对手,凸显了其在多样化硬件平台上的高效性。

图4. 在准确率-参数量(左)和准确率-延迟权衡(CPU,右)方面与流行方法的比较。
4.5 诊断与可视化
我们在表5a至表5h中对YOLOv12的设计进行了诊断。除非另有说明,这些诊断均在YOLOv12-N上进行,默认训练为从零开始训练600个周期。

表5. 诊断研究。为节省空间,我们仅在每个子表中展示待诊断的因素。默认参数为(除非另有说明):使用YOLOv12-N模型,从头开始训练600个周期。
• 注意力机制实现:表5a。我们研究了两种实现注意力的方法。基于卷积的方法由于卷积的计算效率,比基于线性变换的方法更快。此外,我们探索了两种归一化方法(层归一化(LN)和批归一化(BN)),并发现:尽管层归一化在注意力机制中常用,但与卷积结合使用时,其表现不如批归一化。值得注意的是,这已在PSA模块[53]中使用,我们的发现与其设计一致。
• 层次化设计:表5b。与其他检测系统(如Mask R-CNN [1, 25])不同,在这些系统中,普通的视觉Transformer架构可以产生强大的结果,而YOLOv12则表现出不同的行为。当使用普通的视觉Transformer(N/A)时,检测器的性能显著下降,仅达到38.3%的mAP。更适度的调整,例如省略第一阶段(S1)或第四阶段(S4),同时通过调整特征维度保持相似的FLOPs,分别导致性能略微下降0.5% mAP和0.8% mAP。与之前的YOLO模型一致,层次化设计仍然是最有效的,在YOLOv12中实现了最佳性能。
• 训练轮次:表5c。我们研究了不同训练轮次对性能的影响(从头开始训练)。尽管一些现有的YOLO检测器在大约500个训练轮次后达到最佳效果[24, 53, 58],但YOLOv12需要更长的训练周期(约600个轮次)才能达到峰值性能,保持与YOLOv11[28]相同的配置。
• 位置感知器:表5d。在注意力机制中,我们对注意力值v应用了一个大核的可分离卷积,并将其输出加到v@attn上。我们将此组件称为位置感知器,因为卷积的平滑效果保留了图像像素的原始位置,有助于注意力机制感知位置信息(这已在PSA模块[53]中使用,但我们扩大了卷积核,在不影响速度的情况下实现了性能提升)。如表所示,增加卷积核大小可以提高性能,但会逐渐降低速度。当核大小达到9×9时,速度下降变得显著。因此,我们将7×7设为默认核大小。
• 位置嵌入:表5e。我们研究了大多数基于注意力模型中常用的位置嵌入(RPE:相对位置嵌入;APE:绝对位置编码)对性能的影响。有趣的是,最佳性能配置是在不使用任何位置嵌入的情况下实现的,这带来了更简洁的架构和更快的推理延迟。
• 区域注意力:表5f。在本表中,我们默认使用了FlashAttention技术。这使得尽管区域注意力机制增加了计算复杂度(带来性能提升),但由此导致的减速仍然非常小。关于区域注意力有效性的进一步验证,请参见表3。
• MLP比率:表5g。在传统的视觉Transformer中,注意力模块内的MLP比率通常设置为4.0。然而,我们在YOLOv12中观察到了不同的行为。在表中,改变MLP比率会影响模型大小,因此我们调整特征维度以保持整体模型的一致性。特别是,YOLOv12在MLP比率为1.2时表现更好,这与传统做法有所不同。这一调整将计算负载更多地转移到注意力机制上,突显了区域注意力的重要性。
• FlashAttention:表5h。该表验证了FlashAttention在YOLOv12中的作用。它显示,FlashAttention在不增加其他成本的情况下,将YOLOv12-N加速了约0.3毫秒,将YOLOv12-S加速了约0.4毫秒。
可视化:热图对比。图5比较了YOLOv12与最先进的YOLOv10 [53]和YOLOv11 [28]的热图。这些热图从X-scale模型骨干网络的第三阶段提取,突出了模型激活的区域,反映了其目标感知能力。如图所示,与YOLOv10和YOLOv11相比,YOLOv12生成了更清晰的目标轮廓和更精确的前景激活,表明其感知能力有所提升。我们的解释是,这种改进来自于区域注意力机制,该机制比卷积网络具有更大的感受野,因此被认为更擅长捕捉整体上下文,从而产生更精确的前景激活。我们相信,这一特性使YOLOv12具有性能优势。

图5. YOLOv10 [53]、YOLOv11 [28] 与本文提出的YOLOv12的热力图对比。与先进的YOLOv10和YOLOv11相比,YOLOv12在图像中对物体的感知更为清晰。所有结果均使用X尺度模型获得。放大以比较细节。
5.结论
本研究介绍了YOLOv12,它成功地将传统上被认为不适用于实时需求的以注意力为中心的设计引入到YOLO框架中,实现了在延迟与准确性之间的最先进权衡。为了实现高效推理,我们提出了一种新颖的网络,该网络利用区域注意力来降低计算复杂度,并通过残差高效层聚合网络(R-ELAN)来增强特征聚合。此外,我们对传统注意力机制的关键组件进行了优化,以更好地适应YOLO的实时性要求,同时保持高速性能。因此,YOLOv12通过有效结合区域注意力、R-ELAN和架构优化,实现了最先进的性能,显著提升了准确性和效率。全面的消融研究进一步验证了这些创新的有效性。本研究挑战了基于CNN的设计在YOLO系统中的主导地位,并推动了注意力机制在实时目标检测中的集成,为更高效、更强大的YOLO系统铺平了道路。
6.限制
YOLOv12需要FlashAttention [13, 14],目前支持图灵、安培、Ada Lovelace或Hopper架构的GPU(例如T4、Quadro RTX系列、RTX20系列、RTX30系列、RTX40系列、RTX A5000/6000、A30/40、A100、H100等)。
7.更多细节
微调细节。默认情况下,所有YOLOv12模型均使用SGD优化器进行600个epoch的训练。根据之前的工作[24, 53, 57, 58],SGD动量和权重衰减分别设置为0.937和 5 × 1 0 − 4 5×10^{−4} 5×10−4。初始学习率设置为 1 × 1 0 − 2 1×10^{−2} 1×10−2,并在整个训练过程中线性衰减至 1 × 1 0 − 4 1×10^{−4} 1×10−4。数据增强技术,包括Mosaic [3, 57]、Mixup [71]和复制粘贴增强[65],被应用于增强训练效果。遵循YOLOv11 [28],我们采用了Albumentations库[6]。详细的超参数如表7所示。所有模型均在8×NVIDIA A6000 GPU上进行训练。根据既定惯例[24, 28, 53, 58],我们报告了不同物体尺度和IoU阈值下的标准平均精度(mAP)。此外,我们还报告了所有图像的平均延迟。
8.引用文献
- [1] Hangbo Bao, Li Dong, Songhao Piao, and Furu Wei. Beit: Bert pre-training of image transformers. arXiv preprint arXiv:2106.08254, 2021. 6, 9
- [2] Srinadh Bhojanapalli, Chulhee Yun, Ankit Singh Rawat, Sashank Reddi, and Sanjiv Kumar. Low-rank bottleneck in multi-head attention models. In International conference on machine learning, pages 864--873. PMLR, 2020. 4
- [3] Alexey Bochkovskiy, Chien-Yao Wang, and HongYuan Mark Liao. Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934, 2020. 1, 2, 6, 11
- [4] Daniel Bogdoll, Maximilian Nitsche, and J Marius Zo ̈llner. Anomaly detection in autonomous driving: A survey. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 4488--4499, 2022. 1
- [5] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877--1901, 2020. 3
- [6] Alexander Buslaev, Vladimir I Iglovikov, Eugene Khvedchenya, Alex Parinov, Mikhail Druzhinin, and Alexandr A Kalinin. Albumentations: fast and flexible image augmentations. Information, 11(2):125, 2020. 11
- [7] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In European conference on computer vision, pages 213--229. Springer, 2020. 2
- [8] Kean Chen, Weiyao Lin, Jianguo Li, John See, Ji Wang, and Junni Zou. Ap-loss for accurate one-stage object detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(11):3782--3798, 2020. 1
- [9] Yuming Chen, Xinbin Yuan, Ruiqi Wu, Jiabao Wang, Qibin Hou, and Ming-Ming Cheng. Yolo-ms: rethinking multiscale representation learning for real-time object detection. arXiv preprint arXiv:2308.05480, 2023. 2
- [10] Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, et al. Rethinking attention with performers. arXiv preprint arXiv:2009.14794, 2020. 4
- [11] Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, et al. Rethinking attention with performers. arXiv preprint arXiv:2009.14794, 2020. 3, 4
- [12] Xiangxiang Chu, Zhi Tian, Yuqing Wang, Bo Zhang, Haibing Ren, Xiaolin Wei, Huaxia Xia, and Chunhua Shen. Twins: Revisiting the design of spatial attention in vision transformers. Advances in Neural Information Processing Systems, 34:9355--9366, 2021. 3
- [13] Tri Dao. Flashattention-2: Faster attention with better parallelism and work partitioning. arXiv preprint arXiv:2307.08691, 2023. 2, 3, 7, 11
- [14] Tri Dao, Dan Fu, Stefano Ermon, Atri Rudra, and Christopher R ́e. Flashattention: Fast and memory-efficient exact attention with io-awareness. Advances in Neural Information Processing Systems, 35:16344--16359, 2022. 2, 3, 7, 11
- [15] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. In North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4171--4186, 2019. 3
- [16] Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen, and Baining Guo. Cswin transformer: A general vision transformer backbone with cross-shaped windows. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12124--12134, 2022. 2, 4
- [17] Douglas Henke Dos Reis, Daniel Welfer, Marco Antonio De Souza Leite Cuadros, and Daniel Fernando Tello Gamarra. Mobile robot navigation using an object recognition software with rgbd images and the yolo algorithm. Applied Artificial Intelligence, 33(14):1290--1305, 2019. 1
- [18] Alexey Dosovitskiy. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. 6
- [19] Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, and Yue Cao. Eva: Exploring the limits of masked visual representation learning at scale. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 19358--19369, 2023. 3, 6
- [20] Yuxin Fang, Quan Sun, Xinggang Wang, Tiejun Huang, Xinlong Wang, and Yue Cao. Eva-02: A visual representation for neon genesis. Image and Vision Computing, 149:105171, 2024. 1
- [21] Yuxin Fang, Quan Sun, Xinggang Wang, Tiejun Huang, Xinlong Wang, and Yue Cao. Eva-02: A visual representation for neon genesis. Image and Vision Computing, 149:105171, 2024. 1, 6
- [22] Chengjian Feng, Yujie Zhong, Yu Gao, Matthew R Scott, and Weilin Huang. Tood: Task-aligned one-stage object detection. In 2021 IEEE/CVF International Conference on Computer Vision (ICCV), pages 3490--3499. IEEE Computer Society, 2021. 1
- [23] Zheng Ge, Songtao Liu, Zeming Li, Osamu Yoshie, and Jian Sun. Ota: Optimal transport assignment for object detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 303--312, 2021. 1
- [24] Jocher Glenn. Yolov8. https://github.com/ultralytics/ultralytics/tree/main, 2023. 1, 2, 5, 6, 9, 11
- [25] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dolla ́r, and Ross Girshick. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 1600016009, 2022. 1, 6, 9
- [26] Jonathan Ho, Nal Kalchbrenner, Dirk Weissenborn, and Tim Salimans. Axial attention in multidimensional transformers. arXiv preprint arXiv:1912.12180, 2019. 2
- [27] Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Yunchao Wei, and Wenyu Liu. Ccnet: Criss-cross attention for semantic segmentation. In Proceedings of the IEEE/CVF international conference on computer vision, pages 603--612, 2019. 2, 4
- [28] Glenn Jocher. yolov11. https://github.com/ultralytics, 2024. 1, 2, 4, 5, 6, 7, 8, 9, 10, 11
- [29] Glenn Jocher, K Nishimura, T Mineeva, and RJAM Vilarin ̃o. yolov5. https://github.com/ultralytics/yolov5/tree, 2, 2020. 1, 2, 6
- [30] Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas, and Franc ̧ois Fleuret. Transformers are rnns: Fast autoregressive transformers with linear attention. In International conference on machine learning, pages 5156--5165. PMLR, 2020. 4
- [31] Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas, and Franc ̧ois Fleuret. Transformers are rnns: Fast autoregressive transformers with linear attention. In International conference on machine learning, pages 5156--5165. PMLR, 2020. 3
- [32] Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu. Yolov6 v3. 0: A full-scale reloading. arXiv preprint arXiv:2301.05586, 2023. 1, 2, 5, 6
- [33] Feng Li, Hao Zhang, Shilong Liu, Jian Guo, Lionel M Ni, and Lei Zhang. Dn-detr: Accelerate detr training by introducing query denoising. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 13619--13627, 2022. 2
- [34] Shuai Li, Chenhang He, Ruihuang Li, and Lei Zhang. A dual weighting label assignment scheme for object detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 9387--9396, 2022. 1
- [35] Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen, Xiaolin Hu, Jun Li, Jinhui Tang, and Jian Yang. Generalized focal loss: Learning qualified and distributed bounding boxes for dense object detection. Advances in Neural Information Processing Systems, 33:21002--21012, 2020. 1
- [36] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dolla ́r, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision--ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740--755. Springer, 2014. 6, 10
- [37] Shilong Liu, Feng Li, Hao Zhang, Xiao Yang, Xianbiao Qi, Hang Su, Jun Zhu, and Lei Zhang. Dab-detr: Dynamic anchor boxes are better queries for detr. arXiv preprint arXiv:2201.12329, 2022. 2
- [38] Yue Liu, Yunjie Tian, Yuzhong Zhao, Hongtian Yu, Lingxi Xie, Yaowei Wang, Qixiang Ye, Jianbin Jiao, and Yunfan Liu. Vmamba: Visual state space model. In The Thirtyeighth Annual Conference on Neural Information Processing Systems, 2024. 2, 3
- [39] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF international conference on computer vision, pages 10012--10022, 2021. 2, 3, 4
- [40] Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu. Rt-detrv2: Improved baseline with bag-of-freebies for real-time detection transformer. arXiv preprint arXiv:2407.17140, 2024. 2, 6
- [41] Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu. Rt-detrv2: Improved baseline with bag-of-freebies for real-time detection transformer. arXiv preprint arXiv:2407.17140, 2024. 5, 6
- [42] Depu Meng, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui Yuan, Lei Sun, and Jingdong Wang. Conditional detr for fast training convergence. In Proceedings of the IEEE/CVF international conference on computer vision, pages 3651--3660, 2021. 2
- [43] Kemal Oksuz, Baris Can Cam, Emre Akbas, and Sinan Kalkan. A ranking-based, balanced loss function unifying classification and localisation in object detection. Advances in Neural Information Processing Systems, 33:15534--15545, 2020. 1
- [44] Kemal Oksuz, Baris Can Cam, Emre Akbas, and Sinan Kalkan. Rank & sort loss for object detection and instance segmentation. In Proceedings of the IEEE/CVF international conference on computer vision, pages 3009--3018, 2021. 1
- [45] J Redmon. You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, 2016. 1, 2, 6
- [46] Joseph Redmon. Yolov3: An incremental improvement. arXiv preprint arXiv:1804.02767, 2018.
- [47] Joseph Redmon and Ali Farhadi. Yolo9000: better, faster, stronger. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7263--7271, 2017. 1, 2, 6
- [48] Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection over union: A metric and a loss for bounding box regression. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 658--666, 2019. 1
- [49] Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, and Hongsheng Li. Efficient attention: Attention with linear complexities. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 35313539, 2021. 3, 4
- [50] Yunjie Tian, Lingxi Xie, Jihao Qiu, Jianbin Jiao, Yaowei Wang, Qi Tian, and Qixiang Ye. Fast-itpn: Integrally pretrained transformer pyramid network with token migration. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024. 1, 3
- [51] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Herve ́ J ́egou. Training data-efficient image transformers & distillation through attention. In International conference on machine learning, pages 10347--10357. PMLR, 2021. 6
- [52] Hugo Touvron, Matthieu Cord, Alexandre Sablayrolles, Gabriel Synnaeve, and Herve ́ Je ́gou. Going deeper with image transformers. In Proceedings of the IEEE/CVF international conference on computer vision, pages 32--42, 2021. 4
- [53] Ao Wang, Hui Chen, Lihao Liu, Kai Chen, Zijia Lin, Jungong Han, and Guiguang Ding. Yolov10: Real-time endto-end object detection. arXiv preprint arXiv:2405.14458, 2024. 1, 2, 5, 6, 7, 8, 9, 10, 11
- [54] Chengcheng Wang, Wei He, Ying Nie, Jianyuan Guo, Chuanjian Liu, Yunhe Wang, and Kai Han. Gold-yolo: Efficient object detector via gather-and-distribute mechanism. Advances in Neural Information Processing Systems, 36, 2024. 2, 5, 6
- [55] Chien-Yao Wang, Hong-Yuan Mark Liao, Yueh-Hua Wu, Ping-Yang Chen, Jun-Wei Hsieh, and I-Hau Yeh. Cspnet: A new backbone that can enhance learning capability of cnn. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, pages 390--391, 2020. 2, 4
- [56] Chien-Yao Wang, Hong-Yuan Mark Liao, and I-Hau Yeh. Designing network design strategies through gradient path analysis. arXiv preprint arXiv:2211.04800, 2022. 2, 4
- [57] Chien-Yao Wang, Alexey Bochkovskiy, and HongYuan Mark Liao. Yolov7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 7464--7475, 2023. 1, 2, 4, 6, 11
- [58] Chien-Yao Wang, I-Hau Yeh, and Hong-Yuan Mark Liao. Yolov9: Learning what you want to learn using programmable gradient information. arXiv preprint arXiv:2402.13616, 2024. 1, 2, 4, 5, 6, 7, 8, 9, 11
- [59] Jianfeng Wang, Lin Song, Zeming Li, Hongbin Sun, Jian Sun, and Nanning Zheng. End-to-end object detection with fully convolutional network. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 15849--15858, 2021. 1
- [60] Sinong Wang, Belinda Z Li, Madian Khabsa, Han Fang, and Hao Ma. Linformer: Self-attention with linear complexity. arXiv preprint arXiv:2006.04768, 2020. 3, 4
- [61] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In Proceedings of the IEEE/CVF international conference on computer vision, pages 568--578, 2021. 2
- [62] Enze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, et al. Sana 1.5: Efficient scaling of training-time and inference-time compute in linear diffusion transformer. arXiv preprint arXiv:2501.18427, 2025. 3
- [63] Yunyang Xiong, Zhanpeng Zeng, Rudrasis Chakraborty, Mingxing Tan, Glenn Fung, Yin Li, and Vikas Singh. Nystro ̈mformer: A nystro ̈m-based algorithm for approximating self-attention. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 14138--14148, 2021. 4
- [64] Qihang Yu, Yingda Xia, Yutong Bai, Yongyi Lu, Alan L Yuille, and Wei Shen. Glance-and-gaze vision transformer. Advances in Neural Information Processing Systems, 34: 12992--13003, 2021. 3
- [65] Hongyi Zhang. mixup: Beyond empirical risk minimization. arXiv preprint arXiv:1710.09412, 2017. 11
- [66] Yian Zhao, Wenyu Lv, Shangliang Xu, Jinman Wei, Guanzhong Wang, Qingqing Dang, Yi Liu, and Jie Chen. Detrs beat yolos on real-time object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 16965--16974, 2024. 2, 5, 6
- [67] Zhaohui Zheng, Ping Wang, Wei Liu, Jinze Li, Rongguang Ye, and Dongwei Ren. Distance-iou loss: Faster and better learning for bounding box regression. In Proceedings of the AAAI conference on artificial intelligence, pages 1299313000, 2020. 1
- [68] Dingfu Zhou, Jin Fang, Xibin Song, Chenye Guan, Junbo Yin, Yuchao Dai, and Ruigang Yang. Iou loss for 2d/3d object detection. In 2019 international conference on 3D vision (3DV), pages 85--94. IEEE, 2019. 1
- [69] Benjin Zhu, Jianfeng Wang, Zhengkai Jiang, Fuhang Zong, Songtao Liu, Zeming Li, and Jian Sun. Autoassign: Differentiable label assignment for dense object detection. arXiv preprint arXiv:2007.03496, 2020. 1
- [70] Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, and Xinggang Wang. Vision mamba: Efficient visual representation learning with bidirectional state space model. arXiv preprint arXiv:2401.09417, 2024. 3
- [71] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020. 2, 11