CVPR 2024 | Retrieval-Augmented Open-Vocabulary Object Detection

CVPR 2024 - Retrieval-Augmented Open-Vocabulary Object Detection

本文提出了一种新的开放词汇目标检测方法 Retrieval-Augmented Losses and visual Features (RALF)。RALF 通过从大型词汇库中检索词汇并增强损失函数和视觉特征来提高检测器对新类别的泛化能力。

该方法由两个部分组成:检索增强损失(RAL)和检索增强视觉特征(RAF)。

RAL RAF
  • RAL 通过使用与负词汇库的语义相似性的距离来优化嵌入空间。通过从大型词汇库中,按照语义相似性检索与真实类别标签相关的难负词汇和易负词汇。然后,RAL 使用这些词汇和真实框嵌入来定义难负损失和易负损失。
  • RAF 则利用大型语言模型(LLM)生成关于大型词汇库的描述,并从中提取有关目标的详细信息,以增强视觉特征。RAF 首先在离线阶段从目标提案中生成视觉特征。然后,在推理阶段,RAF 使用概念检索器和增强器从概念存储库中检索相关概念,并使用这些概念来增强视觉特征。

通过实验,作者证明了 RALF 在 COCO 和 LVIS 基准数据集上的有效性。特别是在 COCO 数据集的新类别上,APN50 提高了 3.4%,在 LVIS 数据集的新类别上,mask APr 提高了 3.6%。 未命名

相关推荐
天飓4 分钟前
基于OpenCV的自制Python访客识别程序
人工智能·python·opencv
檀越剑指大厂5 分钟前
开源AI大模型工作流神器Flowise本地部署与远程访问
人工智能·开源
声网8 分钟前
「人眼视觉不再是视频消费的唯一形式」丨智能编解码和 AI 视频生成专场回顾@RTE2024
人工智能·音视频
newxtc17 分钟前
【AiPPT-注册/登录安全分析报告-无验证方式导致安全隐患】
人工智能·安全·ai写作·极验·行为验证
技术仔QAQ32 分钟前
【tokenization分词】WordPiece, Byte-Pair Encoding(BPE), Byte-level BPE(BBPE)的原理和代码
人工智能·python·gpt·语言模型·自然语言处理·开源·nlp
陌上阳光1 小时前
动手学深度学习70 BERT微调
人工智能·深度学习·bert
正义的彬彬侠2 小时前
sklearn.datasets中make_classification函数
人工智能·python·机器学习·分类·sklearn
ctrey_2 小时前
2024-11-13 学习人工智能的Day26 sklearn(2)
人工智能·学习·sklearn
安静的_显眼包O_o2 小时前
from sklearn.preprocessing import Imputer.处理缺失数据的工具
人工智能·python·sklearn
安静的_显眼包O_o2 小时前
from sklearn.feature_selection import VarianceThreshold.移除低方差的特征来减少数据集中的特征数量
人工智能·python·sklearn