CVPR 2024 | Retrieval-Augmented Open-Vocabulary Object Detection

CVPR 2024 - Retrieval-Augmented Open-Vocabulary Object Detection

本文提出了一种新的开放词汇目标检测方法 Retrieval-Augmented Losses and visual Features (RALF)。RALF 通过从大型词汇库中检索词汇并增强损失函数和视觉特征来提高检测器对新类别的泛化能力。

该方法由两个部分组成:检索增强损失(RAL)和检索增强视觉特征(RAF)。

RAL RAF
  • RAL 通过使用与负词汇库的语义相似性的距离来优化嵌入空间。通过从大型词汇库中,按照语义相似性检索与真实类别标签相关的难负词汇和易负词汇。然后,RAL 使用这些词汇和真实框嵌入来定义难负损失和易负损失。
  • RAF 则利用大型语言模型(LLM)生成关于大型词汇库的描述,并从中提取有关目标的详细信息,以增强视觉特征。RAF 首先在离线阶段从目标提案中生成视觉特征。然后,在推理阶段,RAF 使用概念检索器和增强器从概念存储库中检索相关概念,并使用这些概念来增强视觉特征。

通过实验,作者证明了 RALF 在 COCO 和 LVIS 基准数据集上的有效性。特别是在 COCO 数据集的新类别上,APN50 提高了 3.4%,在 LVIS 数据集的新类别上,mask APr 提高了 3.6%。 未命名

相关推荐
Z.风止1 分钟前
Large Model-learning(6)
pytorch·深度学习·机器学习
AI先驱体验官5 分钟前
BotCash:Nvidia企业级Agent生态,智能体平台战争的新变量
大数据·人工智能·深度学习·重构·aigc
nap-joker8 分钟前
优化的局部定向韦伯图样与更快的区域卷积神经网络的集成,以增强医学图像检索和分类能力
人工智能·神经网络·cnn
jr-create(•̀⌄•́)9 分钟前
Deep Learning入门---神经网络概念
人工智能·深度学习·神经网络
AI先驱体验官12 分钟前
臻灵:数字人+大模型,实时交互的技术临界点在哪里
大数据·人工智能·深度学习·microsoft·重构·开源·交互
AI大法师13 分钟前
复盘 TikTok 品牌升级:动态品牌系统应该怎么理解和落地
大数据·人工智能·设计模式
王解16 分钟前
第5篇:ReMe——文件即记忆,让用户可读、可改、可迁移
人工智能·ai agent·记忆管理·认知进化
youcans_27 分钟前
【HALCON 实战入门】4. 图像读取、显示与保存
图像处理·人工智能·计算机视觉·halcon
weixin_4474432536 分钟前
AI启蒙Lean4正篇
人工智能·经验分享
w_t_y_y38 分钟前
python AI工程(一)python实现mcp(1)概述
人工智能