【西北工业大学-邢颖慧组-AAAI26】YOLO-IOD:实时增量目标检测

文章：YOLO-IOD: Towards Real Time Incremental Object Detection

代码：暂无

单位：华中科技大学

一、问题背景

在智能监控、自动驾驶、机器人视觉等实时应用场景中，目标检测模型常面临一个关键需求：能不断学习新的物体类别（比如从识别"汽车"扩展到"电动车"），同时不忘记之前学会的类别------这就是增量目标检测（IOD）的核心任务。

但现有主流IOD方法大多基于Faster R-CNN、DETR等框架，直接套用到实时性要求极高的YOLO系列模型上时，不仅性能大幅下滑，还容易出现"学新忘旧"的灾难性遗忘问题。这背后藏着三个关键矛盾，一直困扰着研究者：

更麻烦的是，现有评估基准（比如传统COCO）存在设计缺陷：不同训练阶段会重复使用同一批图片，造成数据泄露，让模型性能看起来比实际更好，根本反映不出真实场景的表现。

针对这些问题，西北工业大学和华为的团队联手推出了YOLO-IOD 实时增量检测框架，还配套了更真实的LoCo COCO评估基准，从方法到评估实现全链条创新。

框架基于预训练的YOLO-World模型，通过"分阶段高效微调"实现增量学习，三个模块各司其职：

冲突感知伪标签优化（CPR）：解决前景背景混淆。一方面给伪标签加"置信度权重"，高置信度标签提供稳定监督，低置信度标签也不浪费，通过正则化保留不确定性；另一方面提前识别未来可能要学的物体，用聚类方法把它们归为"未知超类"，避免误判为背景。
基于重要性的核选择（IKS）：解决参数干扰。只挑选对当前任务最重要的卷积核进行微调，其余参数冻结不动。通过计算参数的"差异化重要性"，确保更新新任务参数时，不破坏之前学到的关键知识。
跨阶段非对称知识蒸馏（CAKD）：解决蒸馏错位。采用"双老师"模式：旧老师模型负责传授已学类别的知识，新老师模型专注当前类别，让学生模型（目标检测器）同时吸收新旧知识，还能通过"聚焦权重"屏蔽无关背景干扰，让知识传递更精准。

新基准彻底解决了传统基准的图片重复问题：先统计类别共现规律（比如"汽车"和"行人"常一起出现，"汽车"和"船"很少同框），再通过聚类把常共现的类别分到同一阶段，最后确保每张图片只出现在一个训练阶段，从根源上杜绝数据泄露，让模型评估更公平、更贴近实际应用。

团队在传统COCO和新的LoCo COCO基准上做了大量实验，YOLO-IOD的表现堪称惊艳：

在40+40（先学40类，再增40类）和70+10（先学70类，再增10类）设置下：

在更贴近真实场景的20-20、10-10（分8个阶段逐步学完80类）设置下：

在LoCo COCO基准上，所有方法的性能都有小幅下降（暴露了传统基准的数据泄露问题），但YOLO-IOD依然保持领先：

更重要的是，YOLO-IOD基于YOLO框架，全程保持实时推理速度，完美兼顾性能与效率。

YOLO-IOD通过三大创新模块破解了YOLO系列增量检测的核心矛盾，搭配真实场景的LoCo COCO基准，实现了"学新不忘旧"与实时性的完美平衡，为智能驾驶、实时监控等场景的增量检测需求提供了高效可行的解决方案。