CVPR 2024 | Retrieval-Augmented Open-Vocabulary Object Detection

CVPR 2024 - Retrieval-Augmented Open-Vocabulary Object Detection

本文提出了一种新的开放词汇目标检测方法 Retrieval-Augmented Losses and visual Features (RALF)。RALF 通过从大型词汇库中检索词汇并增强损失函数和视觉特征来提高检测器对新类别的泛化能力。

该方法由两个部分组成:检索增强损失(RAL)和检索增强视觉特征(RAF)。

RAL RAF
  • RAL 通过使用与负词汇库的语义相似性的距离来优化嵌入空间。通过从大型词汇库中,按照语义相似性检索与真实类别标签相关的难负词汇和易负词汇。然后,RAL 使用这些词汇和真实框嵌入来定义难负损失和易负损失。
  • RAF 则利用大型语言模型(LLM)生成关于大型词汇库的描述,并从中提取有关目标的详细信息,以增强视觉特征。RAF 首先在离线阶段从目标提案中生成视觉特征。然后,在推理阶段,RAF 使用概念检索器和增强器从概念存储库中检索相关概念,并使用这些概念来增强视觉特征。

通过实验,作者证明了 RALF 在 COCO 和 LVIS 基准数据集上的有效性。特别是在 COCO 数据集的新类别上,APN50 提高了 3.4%,在 LVIS 数据集的新类别上,mask APr 提高了 3.6%。 未命名

相关推荐
数据智研8 分钟前
【数据分享】中国税务年鉴(1993-2024)(1998缺失)
大数据·人工智能·信息可视化·数据分析
麻雀无能为力12 分钟前
多媒体常用特征处理技术梳理
人工智能·深度学习·神经网络
居然JuRan41 分钟前
部署大模型需要多少GPU显存?一文教你精准计算
人工智能
数据库知识分享者小北43 分钟前
阿里云「RDS AI助手」正式上线:大模型驱动的数据库智能运维Copilot
人工智能
zstar-_1 小时前
我用AI做了一个3D六子棋游戏
人工智能·游戏
guslegend2 小时前
第2章:AI大模型知识和SpringAI核心案例实战
人工智能
魔镜前的帅比2 小时前
Prompt 模板化设计(PromptTemplate)
人工智能·chatgpt·prompt
maray2 小时前
在 MacOS 场景下体验 seekdb embeded
数据库·人工智能·seekdb
哥布林学者2 小时前
吴恩达深度学习课程二: 改善深层神经网络 第三周:超参数调整,批量标准化和编程框架 课后习题和代码实践
深度学习·ai
WWZZ20252 小时前
快速上手大模型:深度学习11(数据增强、微调、目标检测)
人工智能·深度学习·算法·目标检测·计算机视觉·大模型·具身智能