目录

CVPR 2024 | Retrieval-Augmented Open-Vocabulary Object Detection

CVPR 2024 - Retrieval-Augmented Open-Vocabulary Object Detection

本文提出了一种新的开放词汇目标检测方法 Retrieval-Augmented Losses and visual Features (RALF)。RALF 通过从大型词汇库中检索词汇并增强损失函数和视觉特征来提高检测器对新类别的泛化能力。

该方法由两个部分组成:检索增强损失(RAL)和检索增强视觉特征(RAF)。

RAL RAF
  • RAL 通过使用与负词汇库的语义相似性的距离来优化嵌入空间。通过从大型词汇库中,按照语义相似性检索与真实类别标签相关的难负词汇和易负词汇。然后,RAL 使用这些词汇和真实框嵌入来定义难负损失和易负损失。
  • RAF 则利用大型语言模型(LLM)生成关于大型词汇库的描述,并从中提取有关目标的详细信息,以增强视觉特征。RAF 首先在离线阶段从目标提案中生成视觉特征。然后,在推理阶段,RAF 使用概念检索器和增强器从概念存储库中检索相关概念,并使用这些概念来增强视觉特征。

通过实验,作者证明了 RALF 在 COCO 和 LVIS 基准数据集上的有效性。特别是在 COCO 数据集的新类别上,APN50 提高了 3.4%,在 LVIS 数据集的新类别上,mask APr 提高了 3.6%。 未命名

本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
__Benco1 小时前
OpenHarmony子系统开发 - DFX(一)
人工智能·harmonyos
小西几哦1 小时前
3D点云配准RPM-Net模型解读(附论文+源码)
人工智能·pytorch·3d
CareyWYR1 小时前
每周AI论文速递(250331-250404)
人工智能
码视野1 小时前
基于快速开发平台与智能手表的区域心电监测与AI预警系统(源码+论文+部署讲解等)
人工智能·智能手表·毕业论文·计算机论文·物联网论文
skywalk81632 小时前
OpenRouter开源的AI大模型路由工具,统一API调用
服务器·前端·人工智能·openrouter
ejinxian2 小时前
大模型应用初学指南
人工智能·大模型·向量数据库
秋92 小时前
使用人工智能大模型kimi,如何免费高效制作PPT?
人工智能·kimi·制作ppt
IT古董3 小时前
【漫话机器学习系列】181.没有免费的午餐定理(NFL)
人工智能·机器学习
2501_911067663 小时前
无人机智慧路灯杆:智慧城市的‘全能助手’
人工智能·无人机·智慧城市