CVPR 2024 | Retrieval-Augmented Open-Vocabulary Object Detection

CVPR 2024 - Retrieval-Augmented Open-Vocabulary Object Detection

本文提出了一种新的开放词汇目标检测方法 Retrieval-Augmented Losses and visual Features (RALF)。RALF 通过从大型词汇库中检索词汇并增强损失函数和视觉特征来提高检测器对新类别的泛化能力。

该方法由两个部分组成:检索增强损失(RAL)和检索增强视觉特征(RAF)。

RAL RAF
  • RAL 通过使用与负词汇库的语义相似性的距离来优化嵌入空间。通过从大型词汇库中,按照语义相似性检索与真实类别标签相关的难负词汇和易负词汇。然后,RAL 使用这些词汇和真实框嵌入来定义难负损失和易负损失。
  • RAF 则利用大型语言模型(LLM)生成关于大型词汇库的描述,并从中提取有关目标的详细信息,以增强视觉特征。RAF 首先在离线阶段从目标提案中生成视觉特征。然后,在推理阶段,RAF 使用概念检索器和增强器从概念存储库中检索相关概念,并使用这些概念来增强视觉特征。

通过实验,作者证明了 RALF 在 COCO 和 LVIS 基准数据集上的有效性。特别是在 COCO 数据集的新类别上,APN50 提高了 3.4%,在 LVIS 数据集的新类别上,mask APr 提高了 3.6%。 未命名

相关推荐
2301_764441331 小时前
Dify工作流中实现查询优化(QO):将查询复杂度分类法与QOL框架融入工作流
人工智能·语言模型·自然语言处理·命令模式
oG99bh7CK1 小时前
高光谱成像基础(六)滤波匹配 MF
人工智能·算法·目标跟踪
永霖光电_UVLED1 小时前
生物技术公司 BiomX 进军国防市场,计划收购 DFSL
人工智能·架构·汽车
龙文浩_1 小时前
AI深度学习/PyTorch/反向传播与梯度下降
人工智能·pytorch·深度学习
独隅1 小时前
Keras 全面介绍:从入门到实践
人工智能·深度学习·keras
code_pgf1 小时前
yolov26详细讲解,包括网络结构图、关键创新点、部署
yolo·目标检测
工业机器视觉设计和实现1 小时前
自己的初心,在bpnet基础上自研cnn
人工智能·神经网络·cnn
cyyt1 小时前
深度学习周报(3.30~4.5)
人工智能·深度学习
一颗青果1 小时前
机器学习三大核心分支全解
人工智能
CoderJia程序员甲1 小时前
GitHub 热榜项目 - 日榜(2026-04-05)
人工智能·ai·大模型·github·ai教程