CVPR 2024 | Retrieval-Augmented Open-Vocabulary Object Detection

CVPR 2024 - Retrieval-Augmented Open-Vocabulary Object Detection

本文提出了一种新的开放词汇目标检测方法 Retrieval-Augmented Losses and visual Features (RALF)。RALF 通过从大型词汇库中检索词汇并增强损失函数和视觉特征来提高检测器对新类别的泛化能力。

该方法由两个部分组成:检索增强损失(RAL)和检索增强视觉特征(RAF)。

RAL RAF
  • RAL 通过使用与负词汇库的语义相似性的距离来优化嵌入空间。通过从大型词汇库中,按照语义相似性检索与真实类别标签相关的难负词汇和易负词汇。然后,RAL 使用这些词汇和真实框嵌入来定义难负损失和易负损失。
  • RAF 则利用大型语言模型(LLM)生成关于大型词汇库的描述,并从中提取有关目标的详细信息,以增强视觉特征。RAF 首先在离线阶段从目标提案中生成视觉特征。然后,在推理阶段,RAF 使用概念检索器和增强器从概念存储库中检索相关概念,并使用这些概念来增强视觉特征。

通过实验,作者证明了 RALF 在 COCO 和 LVIS 基准数据集上的有效性。特别是在 COCO 数据集的新类别上,APN50 提高了 3.4%,在 LVIS 数据集的新类别上,mask APr 提高了 3.6%。 未命名

相关推荐
一起来学吧1 天前
【OpenClaw系列教程】第一篇:OpenClaw 完整介绍——开源 AI 智能体平台
人工智能·ai·openclaw·养龙虾
飞Link1 天前
工业级时序异常检测利器:USAD 算法深度解析与实战
人工智能·深度学习·机器学习
光锥智能1 天前
家庭服务机器人爆发前夜,追觅扫地机抢跑下个时代
人工智能·机器人
JGDT_1 天前
筑牢数字底座,驱动智慧未来——全方位数据中台解决方案
大数据·人工智能·科技·系统架构
balmtv1 天前
GPT-5.4推理技术深度拆解:计算机使用、工具搜索与极限推理的架构实现
人工智能·gpt·架构
2501_933329551 天前
舆情监测系统的技术演进:从数据采集到AI中台,Infoseek如何实现“监测+处置”一体化
开发语言·人工智能·自然语言处理·系统架构
杨小扩1 天前
OpenAI Codex CLI 命令行参考笔记
人工智能·笔记
中杯可乐多加冰1 天前
OpenClaw 3.13重磅更新,小龙虾这次真的能流畅操作浏览器了。
人工智能
鲨叔1 天前
编码 Agent 如何重塑工程、产品与设计
人工智能
掘金酱1 天前
小册上新|玩🦐吗?ai 编程全栈指南了解一下?
前端·人工智能·ai编程