【西北工业大学-邢颖慧组-AAAI26】YOLO-IOD:实时增量目标检测


文章:YOLO-IOD: Towards Real Time Incremental Object Detection

代码:暂无

单位:华中科技大学


一、问题背景

在智能监控、自动驾驶、机器人视觉等实时应用场景中,目标检测模型常面临一个关键需求:能不断学习新的物体类别(比如从识别"汽车"扩展到"电动车"),同时不忘记之前学会的类别------这就是增量目标检测(IOD)的核心任务。

但现有主流IOD方法大多基于Faster R-CNN、DETR等框架,直接套用到实时性要求极高的YOLO系列模型上时,不仅性能大幅下滑,还容易出现"学新忘旧"的灾难性遗忘问题。这背后藏着三个关键矛盾,一直困扰着研究者:

  1. 前景背景混淆:训练时没标注的旧类别或未来要学的新类别物体,容易被误判为背景;而且YOLO常用的数据增强技术会放大这种标注噪声,让模型越练越"懵"。

  2. 参数干扰:模型里很多参数是不同任务共用的,学新类别时更新这些参数,很可能把之前记住的旧知识给冲掉。

  3. 知识蒸馏错位:传统"老师-学生"蒸馏模式中,新旧模型的学习目标不一致,YOLO的密集预测特性会让这个问题更突出,导致知识传递失效。

更麻烦的是,现有评估基准(比如传统COCO)存在设计缺陷:不同训练阶段会重复使用同一批图片,造成数据泄露,让模型性能看起来比实际更好,根本反映不出真实场景的表现。

二、方法创新:YOLO-IOD+LoCo COCO双管齐下

针对这些问题,西北工业大学和华为的团队联手推出了YOLO-IOD 实时增量检测框架,还配套了更真实的LoCo COCO评估基准,从方法到评估实现全链条创新。

1. YOLO-IOD三大核心模块,精准破解三大矛盾

框架基于预训练的YOLO-World模型,通过"分阶段高效微调"实现增量学习,三个模块各司其职:

  • 冲突感知伪标签优化(CPR):解决前景背景混淆。一方面给伪标签加"置信度权重",高置信度标签提供稳定监督,低置信度标签也不浪费,通过正则化保留不确定性;另一方面提前识别未来可能要学的物体,用聚类方法把它们归为"未知超类",避免误判为背景。

  • 基于重要性的核选择(IKS):解决参数干扰。只挑选对当前任务最重要的卷积核进行微调,其余参数冻结不动。通过计算参数的"差异化重要性",确保更新新任务参数时,不破坏之前学到的关键知识。

  • 跨阶段非对称知识蒸馏(CAKD):解决蒸馏错位。采用"双老师"模式:旧老师模型负责传授已学类别的知识,新老师模型专注当前类别,让学生模型(目标检测器)同时吸收新旧知识,还能通过"聚焦权重"屏蔽无关背景干扰,让知识传递更精准。

2. LoCo COCO基准:告别数据泄露,贴近真实场景

新基准彻底解决了传统基准的图片重复问题:先统计类别共现规律(比如"汽车"和"行人"常一起出现,"汽车"和"船"很少同框),再通过聚类把常共现的类别分到同一阶段,最后确保每张图片只出现在一个训练阶段,从根源上杜绝数据泄露,让模型评估更公平、更贴近实际应用。

三、实验结果:性能与实时性双领先

团队在传统COCO和新的LoCo COCO基准上做了大量实验,YOLO-IOD的表现堪称惊艳:

1. 单阶段增量:碾压现有方法

在40+40(先学40类,再增40类)和70+10(先学70类,再增10类)设置下:

  • 40+40场景中,AP值达到53.0,比之前的最佳方法RGR高1.5,与全量联合训练的性能差距仅2.7%,大幅降低了遗忘率;

  • 70+10场景中,相对性能差距低至3.9%,在所有指标上都保持领先,而且不需要像RGR那样依赖"样本回放",效率更高。

2. 多阶段增量:长期学习不遗忘

在更贴近真实场景的20-20、10-10(分8个阶段逐步学完80类)设置下:

  • 10-10场景中,最终阶段的遗忘率仅8.8%,远低于RGR的20.3%和CL-DETR的48.1%,证明模型能长期稳定积累知识,不会越学越忘。

3. 真实基准验证:稳健性拉满

在LoCo COCO基准上,所有方法的性能都有小幅下降(暴露了传统基准的数据泄露问题),但YOLO-IOD依然保持领先:

  • 40+40场景中,AP值比之前的最佳方法GCD高7.5;

  • 70+10和40-20场景中,分别领先5.9和8.5,证明其在无数据泄露的真实场景中依然稳健。

更重要的是,YOLO-IOD基于YOLO框架,全程保持实时推理速度,完美兼顾性能与效率。

四、优势与局限

核心优势

  1. 针对性强:精准定位YOLO系列在增量学习中的三大核心矛盾,每个模块都直击痛点;

  2. 实时高效:基于YOLO-World,无需额外复杂结构,保持实时推理能力,适合落地应用;

  3. 评估真实:配套的LoCo COCO基准解决了行业痛点,为IOD研究提供了更可靠的评估标准;

  4. 泛化性好:在单阶段、多阶段、真实场景等多种设置下都表现稳定,适用性广。

现存局限

  1. 核选择比例(当前最优12%)的自适应调整机制还需优化,不同场景下的通用性有待提升;

  2. 对极端长尾分布的类别(少数类别样本极少),增量学习的性能还有提升空间;

  3. 模型在边缘设备上的部署优化尚未涉及,实时性与硬件资源的平衡还需进一步探索。

五、一句话总结

YOLO-IOD通过三大创新模块破解了YOLO系列增量检测的核心矛盾,搭配真实场景的LoCo COCO基准,实现了"学新不忘旧"与实时性的完美平衡,为智能驾驶、实时监控等场景的增量检测需求提供了高效可行的解决方案。

相关推荐
NAGNIP43 分钟前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab2 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab2 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP6 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年6 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼6 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS6 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区7 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈7 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang8 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx