AAAI 2026 | 西北工业大学提出 YOLO-IOD,实时增量目标检测新框架

AAAI 2026 | 西北工业大学提出 YOLO-IOD,实时增量目标检测新框架

该篇论文被 AAAI 2026 录用。

论文标题:YOLO-IOD: Towards Real Time Incremental Object Detection

GitHub 项目

大模型实验室论文阅读

01 引言

增量目标检测(IOD)是一个让目标检测模型能够像人类一样持续学习、积累知识的任务。它的核心目标是在不断吸收新类别信息的同时,有效克服对旧类别的"灾难性遗忘"。

传统方法(如 Faster R-CNN)可以逐步学习新类别(比如从猫狗扩展到飞机、船),但这类方法速度慢,无法满足实时检测需求。而速度更快的 YOLO 模型在增量学习时却像"健忘症患者",它学完新类别后,容易忘记旧类别。

论文发现,这种"遗忘"主要源于三大冲突:

  • 前景-背景混淆:训练新类别时,图中未标注的旧类别物体会被误判为"背景",导致模型逐渐遗忘它们。
  • 参数干扰:模型参数像大脑的神经元,学习新任务时会修改与旧任务共享的参数,从而破坏原有知识。
  • 知识蒸馏错位:传统方法用"教师模型"指导"学生模型",但新旧类别的学习目标不一致,导致指导过程混乱。

另外,现有 IOD 基准存在类别划分随意、图像跨阶段重复等问题,难以反映实际应用场景。

基于以上,本文构建一个基于 YOLO-World 的实时增量目标检测框架 YOLO-IOD,通过阶段化参数高效微调解决 YOLO 模型在增量学习中的知识冲突问题,实现对新类别的持续学习的同时有效保留历史类别知识。

02 核心思路

2.1 三大妙招

论文提出 YOLO-IOD 框架:基于现成的 YOLO-World 模型,通过三招解决上述问题。

妙招 1:CPR(冲突感知伪标签精炼)--- 解决 "前景背景搞混"
  • 增强伪标签损失:采用置信度对齐的焦点损失和自适应熵正则化,充分利用不同置信度的伪标签。即:对模型自己生成的旧类别预测(伪标签)按置信度加权,高置信度的重点学习,低置信度的谨慎参考,避免错误引导。
  • 聚类未知伪标签:构建通用词汇集,通过开放词汇检测识别未标注前景目标,对其文本特征进行频率加权 K-Means 聚类,将未来任务类别转化为 "未知超类" 进行学习,避免前景 - 背景混淆。
妙招 2:IKS(基于重要性的核选择)--- 解决 "参数互相干扰"

只选择对当前任务关键的部分参数(约 12% 的卷积核)进行微调,其他参数冻结不动,像"保护重要记忆不受新知识干扰"。

妙招 3:CAKD(跨阶段非对称知识蒸馏)--- 解决 "老师教错方向"

将学生模型的特征分别输入旧教师模型和新教师模型的检测头,通过分类和回归蒸馏损失传递知识,并使用焦点权重抑制背景区域干扰。即:让"学生模型"同时接受两位老师指导。

  • 老老师:就是之前学完旧物体的模型,只负责教 "旧知识",而且会主动忽略和新物体无关的内容(比如只教 "猫狗",不干扰 "无人机" 的学习);
  • 新老师:专门用新数据训练的临时模型,只负责教 "新物体知识",也会忽略旧物体的干扰;
  • 新模型(学生):同时听两个老师的课,把旧知识和新知识融合起来,这样既不会忘旧的,也能学好新的。

2.2 引入 LoCo COCO 基准

现有评测基准存在"数据泄露"------同一张图片在不同阶段重复使用,使模型表现虚高。论文提出 LoCo COCO 基准,通过两类改进更贴近现实:

  • 按共现关系分组:将常同时出现的类别(如"汽车"和"行人")分到同一阶段,避免强行拆分。
  • 禁止图像重复:每张图片仅出现在一个阶段,杜绝数据泄露。

03 实验结果

3.1 在传统 COCO 基准上的性能

单步增量设置下,YOLO-IOD 在 40+40 和 70+10 任务中分别达到 53.0% 和 52.4% 的 mAP,相对联合训练的差距降至 2.7% 和 3.9%,显著优于 BPF、CL-DETR 等方法。

多步增量设置下,在 40-10、20-20 等任务中均取得最优结果,尤其在 10-10 任务中相对差距仅 8.8%,显著优于对比方法。

3.2 在 LoCo COCO 基准上的鲁棒性

所有方法在 LoCo COCO 上 AP 均有 0.6%-2.0% 下降(验证数据泄露的影响),但 YOLO-IOD 仍保持优势,40+40、70+10、40-20 设置下 AP 分别超此前最佳方法 GCD 7.5、5.9、8.5 个百分点。

3.3 消融实验

  • 三大模块协同有效:CPR、IKS、CAKD 分别带来显著性能提升,组合后效果最优。

  • CAKD 双教师架构最优:早期阶段"仅当前教师"适配新类别更快,后期"仅旧教师"保留知识更优,双教师融合始终表现最佳。

  • IKS 核选择比例:κ=12% 时实现稳定性与可塑性平衡,性能最优。

04 快速上手

作者在 GitHub 上公开了该项目,并且在环境安装步骤中提到:"请按照 YOLO-World 的安装说明来设置环境。"

大模型实验室 Lab4AI 已经内置好了 YOLO-World 论文的复现所需的环境。所以,您可以登录大模型实验室 Lab4AI 来直接使用该环境进行体验本论文的训练过程。

05 总结

论文针对 YOLO 框架下增量目标检测的知识冲突问题 ,提出 YOLO-IOD 实时框架,通过 CPR、IKS、CAKD 三大模块分别解决前景-背景混淆、参数干扰、蒸馏错位,实现知识保留与新增类别学习的平衡。

提出的 LoCo COCO 基准消除了跨阶段数据泄露,更贴合实际应用场景,为 IOD 方法评估提供了公平、真实的平台。

大量实验验证了 YOLO-IOD 在传统 COCO 和 LoCo COCO 基准上的 SOTA 性能 ,且保持实时推理速度,证实了方法的有效性与实用性。

关注"大模型实验室 Lab4AI",第一时间获取前沿 AI 技术解析!

相关推荐
天天讯通1 小时前
告别等待焦虑!AI Agent重构呼叫中心:从成本中心到价值引擎
人工智能·重构
说私域1 小时前
AI智能名片S2B2C商城小程序品牌诞生原因与发展历程分析
人工智能·小程序·流量运营
来两个炸鸡腿1 小时前
【Datawhale组队学习202601】Base-NLP task03 深入大模型架构
人工智能·学习·自然语言处理
川西胖墩墩2 小时前
患者转科交接流程流程图标准格式
大数据·人工智能·架构·流程图·健康医疗·敏捷流程
郝学胜-神的一滴2 小时前
机器学习数据预处理:深入理解标准化与sklearn的StandardScaler
开发语言·人工智能·python·程序人生·机器学习·sklearn
连线Insight2 小时前
极兔的难题
大数据·人工智能
flyyyya2 小时前
【AI学习从零至壹】langchain1.0中间件
人工智能·学习·中间件
查无此人byebye2 小时前
【深度学习保姆级教程】ViT 模型测试 CIFAR10 数据集:从权重加载到抽样验证全流程(附上资源)
人工智能·深度学习
思考的小屋2 小时前
Transformer001 介绍激活函数
人工智能