AAAI 2026 | 西北工业大学提出 YOLO-IOD，实时增量目标检测新框架

该篇论文被 AAAI 2026 录用。

论文标题：YOLO-IOD: Towards Real Time Incremental Object Detection

增量目标检测（IOD）是一个让目标检测模型能够像人类一样持续学习、积累知识的任务。它的核心目标是在不断吸收新类别信息的同时，有效克服对旧类别的"灾难性遗忘"。

传统方法（如 Faster R-CNN）可以逐步学习新类别（比如从猫狗扩展到飞机、船），但这类方法速度慢，无法满足实时检测需求。而速度更快的 YOLO 模型在增量学习时却像"健忘症患者"，它学完新类别后，容易忘记旧类别。

论文发现，这种"遗忘"主要源于三大冲突：

另外，现有 IOD 基准存在类别划分随意、图像跨阶段重复等问题，难以反映实际应用场景。

基于以上，本文构建一个基于 YOLO-World 的实时增量目标检测框架 YOLO-IOD，通过阶段化参数高效微调解决 YOLO 模型在增量学习中的知识冲突问题，实现对新类别的持续学习的同时有效保留历史类别知识。

论文提出 YOLO-IOD 框架：基于现成的 YOLO-World 模型，通过三招解决上述问题。

增强伪标签损失：采用置信度对齐的焦点损失和自适应熵正则化，充分利用不同置信度的伪标签。即：对模型自己生成的旧类别预测（伪标签）按置信度加权，高置信度的重点学习，低置信度的谨慎参考，避免错误引导。
聚类未知伪标签：构建通用词汇集，通过开放词汇检测识别未标注前景目标，对其文本特征进行频率加权 K-Means 聚类，将未来任务类别转化为 "未知超类" 进行学习，避免前景 - 背景混淆。

只选择对当前任务关键的部分参数（约 12% 的卷积核）进行微调，其他参数冻结不动，像"保护重要记忆不受新知识干扰"。

将学生模型的特征分别输入旧教师模型和新教师模型的检测头，通过分类和回归蒸馏损失传递知识，并使用焦点权重抑制背景区域干扰。即：让"学生模型"同时接受两位老师指导。

现有评测基准存在"数据泄露"------同一张图片在不同阶段重复使用，使模型表现虚高。论文提出 LoCo COCO 基准，通过两类改进更贴近现实：

单步增量设置下，YOLO-IOD 在 40+40 和 70+10 任务中分别达到 53.0% 和 52.4% 的 mAP，相对联合训练的差距降至 2.7% 和 3.9%，显著优于 BPF、CL-DETR 等方法。

多步增量设置下，在 40-10、20-20 等任务中均取得最优结果，尤其在 10-10 任务中相对差距仅 8.8%，显著优于对比方法。

所有方法在 LoCo COCO 上 AP 均有 0.6%-2.0% 下降（验证数据泄露的影响），但 YOLO-IOD 仍保持优势，40+40、70+10、40-20 设置下 AP 分别超此前最佳方法 GCD 7.5、5.9、8.5 个百分点。

作者在 GitHub 上公开了该项目，并且在环境安装步骤中提到："请按照 YOLO-World 的安装说明来设置环境。"

大模型实验室 Lab4AI 已经内置好了 YOLO-World 论文的复现所需的环境。所以，您可以登录大模型实验室 Lab4AI 来直接使用该环境进行体验本论文的训练过程。

论文针对 YOLO 框架下增量目标检测的知识冲突问题 ，提出 YOLO-IOD 实时框架，通过 CPR、IKS、CAKD 三大模块分别解决前景-背景混淆、参数干扰、蒸馏错位，实现知识保留与新增类别学习的平衡。

提出的 LoCo COCO 基准消除了跨阶段数据泄露，更贴合实际应用场景，为 IOD 方法评估提供了公平、真实的平台。

大量实验验证了 YOLO-IOD 在传统 COCO 和 LoCo COCO 基准上的 SOTA 性能 ，且保持实时推理速度，证实了方法的有效性与实用性。

关注"大模型实验室 Lab4AI"，第一时间获取前沿 AI 技术解析！