YOLO训练可以偷懒？Anti-Forgetting Sampling跳过已学会的图片加速收敛

YOLO以推理速度快闻名，但训练却出乎意料地慢------YOLO11s在MS COCO上用两块RTX 4090需要43.9小时，而同条件下Faster R-CNN+ResNet50仅需6.5小时。原因在于YOLO每个epoch都要遍历全部训练图片，即使其中大量图片早已被学会。那么，YOLO真的需要每轮看完所有图片吗？

西北工业大学与重庆邮电大学的研究团队提出了Anti-Forgetting Sampling Strategy（AFSS），通过度量每张图片的学习充分性，将训练数据动态分为简单、中等、困难三级，对已学会的图片大幅减少采样，同时引入持续复习机制防止遗忘。在4个数据集、4代YOLO、5个模型尺度共60种配置（自然图像40种+遥感20种）上，AFSS实现1.43-1.70倍训练加速，且所有配置精度持平或提升。其中YOLO12x在MS COCO上从260.6小时降至154.8小时，节省105.8小时。更值得注意的是，AFSS是对比实验中唯一在加速的同时不损失精度的方法。

论文信息

标题：Does YOLO Really Need to See Every Training Image in Every Epoch?
作者：Xingxing Xie, Jiahua Dong, Junwei Han, Gong Cheng
机构：西北工业大学自动化学院、重庆邮电大学人工智能学院
代码：暂未开源（截至2026年3月29日）

一、每轮看所有图片真的必要吗？

YOLO系列检测器的核心卖点是推理快------"You Only Look Once"。但在训练端，这一系列却遵循一个看似矛盾的范式：每个epoch遍历全部训练图片。论文以YOLO11s为例给出了一组对比数据：在MS COCO 2017上，YOLO11s推理速度达200 FPS，但训练需要43.9小时（2块RTX 4090）；而同条件下Faster R-CNN+ResNet50仅需6.5小时，训练速度反而快6.9倍。

造成这种"推理快、训练慢"反差的根源，在于YOLO不区分图片难度地进行全量遍历。训练后期，大量图片已被模型充分学会，继续处理它们产生的是冗余计算。论文的核心问题由此而来：能否在训练过程中动态跳过已学会的图片，在不损失精度的前提下加速训练？

这个问题看似简单，但朴素地丢弃图片会带来遗忘问题------模型可能"忘掉"曾经学会的样本。AFSS正是围绕"如何安全地跳过"这一核心挑战展开设计。

二、AFSS：学习充分性度量+三级分类+持续复习

AFSS的设计分为四个相互配合的模块：学习充分性度量（Learning Sufficiency Metric, LSM）、三级采样策略、持续复习机制、以及周期性状态更新。

学习充分性度量：取弱项而非取平均

AFSS通过一个简洁的公式衡量每张图片是否已被充分学习：

Learning Sufficiency = min(Precision, Recall)

对每张训练图片分别计算检测精确率（Precision）和召回率（Recall），取两者中的最小值 作为该图片的学习充分性指标。这样做的核心思路是聚焦弱项：只要分类或定位中任何一项不可靠，就认为这张图片尚未被充分学习。

论文也对比了其他度量方式的效果。基于Loss的度量过早饱和，最终精度仅46.0 AP；基于梯度的度量虽然精度尚可（46.9 AP）但增加了计算开销；F1 Score同样存在饱和问题（46.6 AP）。而min(Precision, Recall)在精度（47.2 AP）和加速（1.54倍）上均取得最优结果。

值得注意的是，现代YOLO训练流程本身就会计算Precision和Recall，因此这一度量几乎不增加额外计算开销。

三级分类与差异化采样

根据学习充分性的数值，AFSS将所有训练图片动态分为三个级别：

级别	判定条件	每epoch采样策略
Easy（简单）	min(P, R) > 0.85	仅采样2%
Moderate（中等）	0.55 ≤ min(P, R) ≤ 0.85	采样40%，保证每3个epoch至少出现一次
Hard（困难）	min(P, R) < 0.55	全部参与训练

这三级策略的核心逻辑是：简单图片大幅削减、中等图片适度保留、困难图片充分学习。

持续复习：防止"学会又忘"

对Easy图片仅采样2%，如何防止遗忘？AFSS引入了**持续复习（Continuous Review）**机制：

强制复习：超过10个epoch未被使用的Easy图片优先被召回参与训练
随机多样性：剩余配额从Easy图片中随机抽取，维持曝光多样性
总量约束：强制复习部分不超过Easy采样总量的一半（即不超过1%）

对Moderate图片也有类似的**短期覆盖（Short-Term Coverage）**机制：连续2个epoch未使用的Moderate图片会被强制选入下一轮训练，确保每张Moderate图片至少每3个epoch出现一次。剩余配额随机补齐到40%。

周期性状态更新

每张图片的Precision、Recall和上次使用时间构成一个状态字典，每5个epoch更新一次。这个频率是精心平衡的结果：每epoch更新（间隔=1）计算开销太大，加速仅1.26倍；每10个epoch更新则状态过时，精度降至45.8 AP。每5个epoch更新在精度（47.2 AP）和加速（1.54倍）之间取得最优平衡。

随着训练推进，越来越多图片从Hard迁移到Moderate再到Easy，模型自动将注意力集中在剩余的困难样本上。以YOLO11s在MS COCO上的训练为例：Epoch 100时仍使用78.8%的图片（约93k/118k），Epoch 300时降至69.5%（约82k/118k），到Epoch 600时仅使用36.4%（约43k/118k）。

图片来源于原论文

三、60种配置实验：4代YOLO x 5个尺度 x 4个数据集

AFSS的实验覆盖面在YOLO相关研究中相当罕见：4个数据集（MS COCO 2017、PASCAL VOC 2007、DOTA-v1.0、DIOR-R）、4代YOLO（YOLOv8、YOLOv10、YOLO11、YOLO12）、5个模型尺度（n/s/m/l/x），共计60种模型-数据集配置（自然图像4代YOLO×5尺度×2数据集=40种，遥感2代YOLO-OBB×5尺度×2数据集=20种）。所有实验基于2块RTX 4090完成。

MS COCO 2017：加速1.43-1.68倍

下表展示AFSS在MS COCO 2017上各模型的精度和训练时间对比（部分代表性配置）：

模型	原始AP	+AFSS AP	原始时间(h)	+AFSS时间(h)	加速
YOLOv8n	37.3	37.4	30.4	21.2	1.43x
YOLO11s	47.0	47.2	43.9	28.4	1.54x
YOLO12m	52.5	52.6	111.3	68.7	1.62x
YOLO11x	54.7	54.9	161.6	96.1	1.68x
YOLO12x	55.2	55.4	260.6	154.8	1.68x

两个重要规律浮现：模型越大，加速越明显 ------n尺度加速约1.43-1.48倍，x尺度达到1.67-1.68倍。这是因为大模型学习能力更强，能更快将图片"学会"并归入Easy类别。此外，在已测试的全部60种配置中，精度均持平或提升，没有任何一个配置出现精度下降。

PASCAL VOC 2007：加速1.60-1.69倍

VOC数据集规模较小，冗余更集中，加速比COCO更明显。代表性结果：

模型	原始mAP	+AFSS mAP	原始时间(h)	+AFSS时间(h)	加速
YOLOv8n	75.9	76.0	4.5	2.8	1.60x
YOLO11s	81.7	81.8	6.9	4.2	1.64x
YOLO12x	86.2	86.4	40.3	23.8	1.69x

遥感数据集：加速1.63-1.70倍

在DOTA-v1.0和DIOR-R两个旋转目标检测数据集上，AFSS展现了更大的加速潜力。遥感图像分辨率更高（DOTA使用1024x1024，DIOR-R使用800x800），冗余计算占比更大，加速效果更显著。

模型	数据集	原始mAP	+AFSS mAP	加速
YOLOv8n-OBB	DOTA-v1.0	78.0	78.1	1.63x
YOLO11x-OBB	DOTA-v1.0	81.3	81.4	1.69x
YOLOv8x-OBB	DIOR-R	83.6	83.6	1.70x
YOLO11x-OBB	DIOR-R	83.6	83.7	1.70x

与现有训练加速策略对比

论文以YOLO11s+MS COCO为基准，对比了四种常见的训练加速策略：

方法	AP	加速	AP变化
Baseline	47.0	---	---
Curriculum Learning	43.7	1.35x	-3.3
Self-Paced Learning	44.5	1.30x	-2.5
Data Pruning	40.5	1.38x	-6.5
Dataset Distillation	35.6	1.50x	-11.4
AFSS	47.2	1.54x	+0.2

Curriculum Learning和Self-Paced Learning虽然加速训练，但都以明显的精度损失为代价（分别-3.3和-2.5 AP）。Data Pruning和Dataset Distillation的精度下降更为严重（-6.5和-11.4 AP）。AFSS是唯一在获得最高加速的同时还提升了精度的方法。

图片来源于原论文

四、消融实验：四个模块和超参数敏感性

模块贡献分析

论文以YOLO11s+MS COCO为基准，逐步叠加各模块观察效果（LSM=学习充分性度量，CR=持续复习，STC=短期覆盖，SU=状态更新）：

LSM	CR	STC	SU	AP	加速
---	---	---	---	47.0	---
✓	---	---	---	44.8	1.45x
✓	✓	---	---	45.5	1.34x
✓	✓	✓	---	46.6	1.31x
✓	✓	---	✓	47.2	1.26x
✓	✓	✓	✓	47.2	1.54x

仅使用LSM进行难度过滤可获得1.45倍加速，但精度下降至44.8 AP（-2.2）。逐步加入CR和STC后精度逐渐恢复（45.5、46.6），但加速也相应下降。加入SU后精度恢复至47.2 AP，但加速降至1.26倍。只有四个模块全部配合，才能同时实现47.2 AP和1.54倍加速------各模块缺一不可。

超参数敏感性

论文系统测试了三个关键超参数的影响：

持续复习间隔（Easy图片强制复习的epoch间隔）：

间隔	AP	加速
5	47.2	1.49x
10	47.2	1.54x
15	45.7	1.58x
20	44.8	1.63x

间隔10为最优选择。间隔太短（5）复习过于频繁，间隔太长（15、20）则引起遗忘，精度分别降至45.7和44.8 AP。

短期覆盖间隔（Moderate图片强制出现的最大epoch间隔）：

间隔	AP	加速
2	47.2	1.53x
3	47.2	1.54x
4	46.0	1.55x
5	44.2	1.56x

间隔3为最优。间隔2过于频繁，间隔4和5则导致Moderate图片覆盖不足，精度明显下降。

状态更新间隔：

间隔	AP	加速
1	47.2	1.26x
5	47.2	1.54x
10	45.8	1.72x
15	43.7	1.93x

这组实验揭示了一个有趣的权衡：更新越频繁，状态越准确，但计算开销越大。间隔1虽然精度最优但加速仅1.26倍；间隔10和15加速虽大但状态过时导致精度下降。间隔5是精度和效率的最优平衡点。

图片来源于原论文

五、总结与思考

AFSS提出了一个简洁而有效的训练加速思路：通过min(Precision, Recall)度量每张图片的学习充分性，将训练数据动态分为三级并差异化采样，同时用持续复习和短期覆盖机制防止遗忘。在60种YOLO配置上实现1.43-1.70倍加速且精度不降，作为即插即用的训练策略，不修改模型架构，不增加推理开销。