SDDGR:基于稳定扩散的深度生成重放,用于类增量对象检测(CVPR 2024)

摘要

在类增量学习(CIL)领域,随着生成模型的不断改进,生成重放作为一种减轻灾难性遗忘的方法越来越受到重视,但其在类增量目标检测(CIOD)中的应用受到了很大的限制,主要原因是涉及多个标签的场景的复杂性。我们提出了一种新的CIOD方法,称为稳定扩散深度生成重放(SDDGR)。我们的方法利用基于扩散的生成模型和预先训练的文本到图像扩散网络来生成逼真和多样化的合成图像。SDDGR结合了迭代细化策略,以产生高质量的图像。包含旧类的高质量图像。此外,我们采用L2知识蒸馏技术来提高合成图像中先验知识的保留。此外,我们的方法包括在新任务图像中对旧对象进行伪标记,在COCO 2017数据集上进行的大量实验表明,SDDGR显著优于现有算法,在各种CIOD场景中实现新的最先进技术。

1、数据集

使用 MS COCO 2017,包含80个类别,118,000张训练图像和5,000张评估图像。

2、要解决的问题

2.1类别增量目标检测(CIOD) 中的灾难性遗忘问题:模型在学习新类别时会忘记旧类别。

2.2 传统的生成式重放(Generative Replay) 方法在复杂多标签场景(如目标检测)中效果有限。

2.3 直接使用预训练的 Stable Diffusion 生成图像用于 CIOD 效果不佳,需解决生成图像质量、控制能力和训练策略等问题。

3、提出的创新点

图2. SDDGR框架示意图:在"生成过程"中,我们的方法基于类标签Clabel、特定边界框位置Blocation和旧数据集Dm-1中的旧真实的图像xm-1单独生成每个图像。采用训练模型Mm-1的"迭代细化"被应用于这些合成图像。在该算法中,对象得分低于动态调整阈值的图像(在我们的研究中,范围从0.8到0.4)被系统地排除。这种生成和动态细化的循环继续下去,直到每个类达到预定义的目标实例数N,在"训练过程"中,通过L2蒸馏损失将合成数据集用于持续学习。此外,真实的图像在被纳入"训练过程"之前经历伪标记。

3.1 首次将扩散模型(Stable Diffusion)应用于 CIOD,并提出 SDDGR 框架。

3.2 可控图像生成:使用 GLIGEN 引入类别标签和边界框作为 grounding 输入,结合文本提示和 CLIP 图像嵌入,生成更真实的多目标图像。

3.3 迭代类别级精细化(Iterative Class-wise Refiner):

(1)动态调整置信度阈值(0.8 → 0.4),筛选高质量生成图像。

(2)对不足类别进行中心化生成补充。

3.4 L2 知识蒸馏:在生成图像上对旧模型和新模型的分类和回归输出进行 L2 蒸馏,避免直接使用生成图像训练带来的过拟合。

3.5 伪标签策略:在新任务图像中为旧类别对象生成伪标签,防止被误判为背景。

4、结论和不足

4.1 结论

(1)SDDGR 在 COCO 2017 的两阶段和多阶段 CIOD 任务中均取得 SOTA 性能

(2)显著降低了遗忘(FPP),并在不使用真实旧数据的情况下超越了使用回放缓冲区的 CL-DETR。

(3)各模块(伪标签、生成重放、蒸馏、CLIP图像嵌入)均对性能提升有贡献。

4.2 不足

(1)计算开销较大:生成图像和迭代精细化过程耗时较长(论文补充材料中提及)。

(2)依赖预训练模型:性能受限于 Stable Diffusion 和 GLIGEN 的生成能力。

(3)类别数量扩展性未充分验证:实验最多为80类(COCO),更大规模场景(如上千类)未测试。

(4)生成图像质量仍有提升空间:部分图像仍存在对象缺失或位置偏差。

相关推荐
冬奇Lab1 小时前
一天一个开源项目(第114篇):stop-slop - 一个教 AI 消除自身写作口癖的 Skill 文件
人工智能
天青色等烟雨..1 小时前
R+VIC模型融合实践技术应用及未来气候变化模型预测
大数据·人工智能·arcgis·语言模型·数据分析
云栖梦泽在1 小时前
AI安全实战:AI系统应急响应的实战演练案例
大数据·人工智能·安全
wanzehongsheng1 小时前
户外追日光伏技术对比:双轴太阳花与三轴智能太阳花场景适配分析
人工智能·能源·光伏·光伏支架·光伏太阳花
北辰alk2 小时前
AI Agent 记忆系统架构设计:OpenClaw、Claude Code、Hermes Agent 深度对比
人工智能
忆~遂愿2 小时前
《大模型驱动软件测试》| 软件工程3.0时代,大模型驱动测试实战指南
人工智能·深度学习·神经网络·机器学习·自然语言处理·软件工程·知识图谱
无忧智库2 小时前
电力行业集团数字化转型信息化战略规划方案(PPT)
大数据·人工智能
人月神话-Lee2 小时前
【图像处理】图像导出与工业级压缩策略——从像素到文件的最后一公里
图像处理·人工智能·ios·ai编程·swift