开放词汇目标检测

开放词汇目标检测(Open Vocabulary Object Detection, OVOD)是一种计算机视觉技术,它扩展了传统目标检测的概念,能够识别和定位图像中的对象,即使这些对象的类别没有在训练数据集中明确列出。这种技术通过结合大规模预训练的图像-文本对模型,使得目标检测能够覆盖更广泛的词汇和对象类别,实现对新颖或罕见对象的有效识别。

  1. 预训练的图像-文本对模型:使用大规模的图像和配对文本数据进行预训练,如使用视觉-语言预训练(VLP)模型。这些模型通过学习图像内容与自然语言描述之间的关系,能够理解和表示广泛的对象和属性。

  2. 细粒度属性突出显示:传统的目标检测模型通常关注于识别对象的大类别(如狗、车等)。开放词汇目标检测模型通过显式突出显示细粒度属性(如颜色、形状、动作等),增强了模型对具有特定属性对象的识别能力。这通常通过修改模型的文本编码器部分,使其能够识别和强调输入文本中的细粒度属性词汇。

  3. 特征重组和调整:将全局文本特征与属性特定特征结合,通过设计或学习得到的算法对这些特征进行调整和优化,以提高对细粒度属性的检测精度。

开放词汇目标检测不仅提升了目标检测技术的覆盖范围和精确度,也为未来的智能系统提供了更强的视觉理解能力。

  • 泛化能力:开放词汇目标检测能够扩展模型的泛化能力,使其能在没有直接训练数据的情况下识别新的对象类别。
  • 细粒度识别:通过关注对象的细粒度属性,可以更精确地理解和描述场景中的各种元素,这对于自动驾驶、增强现实、内容创建等领域具有重要意义。
  • 适应新环境:这种技术可以帮助模型适应动态变化的环境和持续扩展的对象类别,对于持续学习和适应性系统尤为重要。

论文作者:Yuqi Ma,Mengyin Liu,Chao Zhu,Xu-Cheng Yin

作者单位:University of Science and Technology Beijing

论文链接:http://arxiv.org/abs/2409.16136v1

内容简介:

1)方向:开放词汇目标检测

2)应用:目标检测

3)背景:传统的OVD模型注重对象的粗粒度类别而非细粒度属性,导致无法识别具有特定属性的对象。然而,这些OVD模型是在大规模图像-文本对上进行预训练的,具有丰富的属性词汇,其潜在特征空间可以表示全局文本特征,但未突出显示细粒度属性。

4)方法:本文提出一种通用和显式的方法,通过在显式线性空间中突出显示细粒度属性,增强了冻结主流OVD模型的属性级别检测能力。利用LLM突出显示输入文本中的属性词汇,通过调整令牌掩码,提取OVD模型的文本编码器中的全局文本和属性特定特征,将它们显式组合为新的属性突出显示特征,其中相应的标量被手工设计或学习以重新调整这两个向量。

5)结果:在FG-OVD数据集上的实证评估表明,所提出的方法统一提高了各种主流模型的细粒度属性级别OVD,并取得了新的最先进性能。

相关推荐
Coovally AI模型快速验证14 小时前
无人机低空视觉数据集全景解读:从单机感知到具身智能的跨
人工智能·深度学习·目标检测·机器学习·自动驾驶·无人机
小北方城市网14 小时前
第 5 课:Vue 3 HTTP 请求与 UI 库实战 —— 从本地数据到前后端交互应用
大数据·前端·人工智能·ai·自然语言处理
CES_Asia14 小时前
机器人“奥运会”登陆!CES Asia 2026角逐消费级机器人王座
大数据·人工智能·科技·机器人
wayuncn14 小时前
AI领域核心概念解析:模型、模型参数、模型大小、计算精度
人工智能·ai·ai智能体·ai定制开发
小陈phd14 小时前
大语言模型实战(三)——词编码技术演进:从 “机器识字符” 到 “AI 懂语义”
人工智能·语言模型·自然语言处理
电商API&Tina14 小时前
跨境电商速卖通(AliExpress)数据采集与 API 接口接入全方案
大数据·开发语言·前端·数据库·人工智能·python
得贤招聘官14 小时前
招聘终极战场:AI重构首轮筛选的精准与效能革命
人工智能·重构
通义灵码14 小时前
使用记忆提升开发效率
人工智能·qoder·记忆能力
Echo_NGC223715 小时前
【传统JSCC+Deep JSCC】联合信源信道编码完全指南
人工智能·python·深度学习·神经网络·conda·无人机·jscc
阿杰学AI15 小时前
AI核心知识63——大语言模型之Reasoning Model (简洁且通俗易懂版)
人工智能·ai·语言模型·aigc·cot·推理模型·reasoning model