【西北工业大学-邢颖慧组-AAAI26】YOLO-IOD:实时增量目标检测


文章:YOLO-IOD: Towards Real Time Incremental Object Detection

代码:暂无

单位:华中科技大学


一、问题背景

在智能监控、自动驾驶、机器人视觉等实时应用场景中,目标检测模型常面临一个关键需求:能不断学习新的物体类别(比如从识别"汽车"扩展到"电动车"),同时不忘记之前学会的类别------这就是增量目标检测(IOD)的核心任务。

但现有主流IOD方法大多基于Faster R-CNN、DETR等框架,直接套用到实时性要求极高的YOLO系列模型上时,不仅性能大幅下滑,还容易出现"学新忘旧"的灾难性遗忘问题。这背后藏着三个关键矛盾,一直困扰着研究者:

  1. 前景背景混淆:训练时没标注的旧类别或未来要学的新类别物体,容易被误判为背景;而且YOLO常用的数据增强技术会放大这种标注噪声,让模型越练越"懵"。

  2. 参数干扰:模型里很多参数是不同任务共用的,学新类别时更新这些参数,很可能把之前记住的旧知识给冲掉。

  3. 知识蒸馏错位:传统"老师-学生"蒸馏模式中,新旧模型的学习目标不一致,YOLO的密集预测特性会让这个问题更突出,导致知识传递失效。

更麻烦的是,现有评估基准(比如传统COCO)存在设计缺陷:不同训练阶段会重复使用同一批图片,造成数据泄露,让模型性能看起来比实际更好,根本反映不出真实场景的表现。

二、方法创新:YOLO-IOD+LoCo COCO双管齐下

针对这些问题,西北工业大学和华为的团队联手推出了YOLO-IOD 实时增量检测框架,还配套了更真实的LoCo COCO评估基准,从方法到评估实现全链条创新。

1. YOLO-IOD三大核心模块,精准破解三大矛盾

框架基于预训练的YOLO-World模型,通过"分阶段高效微调"实现增量学习,三个模块各司其职:

  • 冲突感知伪标签优化(CPR):解决前景背景混淆。一方面给伪标签加"置信度权重",高置信度标签提供稳定监督,低置信度标签也不浪费,通过正则化保留不确定性;另一方面提前识别未来可能要学的物体,用聚类方法把它们归为"未知超类",避免误判为背景。

  • 基于重要性的核选择(IKS):解决参数干扰。只挑选对当前任务最重要的卷积核进行微调,其余参数冻结不动。通过计算参数的"差异化重要性",确保更新新任务参数时,不破坏之前学到的关键知识。

  • 跨阶段非对称知识蒸馏(CAKD):解决蒸馏错位。采用"双老师"模式:旧老师模型负责传授已学类别的知识,新老师模型专注当前类别,让学生模型(目标检测器)同时吸收新旧知识,还能通过"聚焦权重"屏蔽无关背景干扰,让知识传递更精准。

2. LoCo COCO基准:告别数据泄露,贴近真实场景

新基准彻底解决了传统基准的图片重复问题:先统计类别共现规律(比如"汽车"和"行人"常一起出现,"汽车"和"船"很少同框),再通过聚类把常共现的类别分到同一阶段,最后确保每张图片只出现在一个训练阶段,从根源上杜绝数据泄露,让模型评估更公平、更贴近实际应用。

三、实验结果:性能与实时性双领先

团队在传统COCO和新的LoCo COCO基准上做了大量实验,YOLO-IOD的表现堪称惊艳:

1. 单阶段增量:碾压现有方法

在40+40(先学40类,再增40类)和70+10(先学70类,再增10类)设置下:

  • 40+40场景中,AP值达到53.0,比之前的最佳方法RGR高1.5,与全量联合训练的性能差距仅2.7%,大幅降低了遗忘率;

  • 70+10场景中,相对性能差距低至3.9%,在所有指标上都保持领先,而且不需要像RGR那样依赖"样本回放",效率更高。

2. 多阶段增量:长期学习不遗忘

在更贴近真实场景的20-20、10-10(分8个阶段逐步学完80类)设置下:

  • 10-10场景中,最终阶段的遗忘率仅8.8%,远低于RGR的20.3%和CL-DETR的48.1%,证明模型能长期稳定积累知识,不会越学越忘。

3. 真实基准验证:稳健性拉满

在LoCo COCO基准上,所有方法的性能都有小幅下降(暴露了传统基准的数据泄露问题),但YOLO-IOD依然保持领先:

  • 40+40场景中,AP值比之前的最佳方法GCD高7.5;

  • 70+10和40-20场景中,分别领先5.9和8.5,证明其在无数据泄露的真实场景中依然稳健。

更重要的是,YOLO-IOD基于YOLO框架,全程保持实时推理速度,完美兼顾性能与效率。

四、优势与局限

核心优势

  1. 针对性强:精准定位YOLO系列在增量学习中的三大核心矛盾,每个模块都直击痛点;

  2. 实时高效:基于YOLO-World,无需额外复杂结构,保持实时推理能力,适合落地应用;

  3. 评估真实:配套的LoCo COCO基准解决了行业痛点,为IOD研究提供了更可靠的评估标准;

  4. 泛化性好:在单阶段、多阶段、真实场景等多种设置下都表现稳定,适用性广。

现存局限

  1. 核选择比例(当前最优12%)的自适应调整机制还需优化,不同场景下的通用性有待提升;

  2. 对极端长尾分布的类别(少数类别样本极少),增量学习的性能还有提升空间;

  3. 模型在边缘设备上的部署优化尚未涉及,实时性与硬件资源的平衡还需进一步探索。

五、一句话总结

YOLO-IOD通过三大创新模块破解了YOLO系列增量检测的核心矛盾,搭配真实场景的LoCo COCO基准,实现了"学新不忘旧"与实时性的完美平衡,为智能驾驶、实时监控等场景的增量检测需求提供了高效可行的解决方案。

相关推荐
飞哥数智坊2 小时前
TRAE 国际版限免开启!一份给新手的入门说明书
人工智能·ai编程·trae
翱翔的苍鹰2 小时前
神经网络中损失函数(Loss Function)介绍
人工智能·深度学习·神经网络
狼爷2 小时前
【译】Skills 详解:Skills 与 prompts、Projects、MCP 和 subagents 的比较
人工智能·aigc
元智启2 小时前
企业AI应用面临“敏捷响应”难题:快速变化的业务与相对滞后的智能如何同步?
人工智能·深度学习·机器学习
ISACA中国3 小时前
2026年网络安全与AI趋势预测
人工智能·安全·web安全
lambo mercy3 小时前
自回归生成任务
人工智能·数据挖掘·回归
5Gcamera3 小时前
边缘计算视频分析智能AI盒子使用说明
人工智能·音视频·边缘计算
hg01183 小时前
埃及:在变局中重塑发展韧性
大数据·人工智能·物联网
线束线缆组件品替网3 小时前
IO Audio Technologies 音频线缆抗干扰与带宽设计要点
网络·人工智能·汽车·电脑·音视频·材料工程