基于推理的目标检测 DetGPT

基于推理的目标检测 DetGPT

flyfish

detgpt.github.io

近年来,由于大型语言模型(LLMs)的发展,计算机视觉领域取得了重大进展。这些模型使人类与机器之间能够进行更有效、更复杂的交互,为模糊人类与机器智能界限的新技术铺平了道路。在本文中,我们引入了一种新的目标检测范式,我们称之为基于推理的目标检测。与依赖特定物体名称的传统目标检测方法不同,我们的方法允许用户使用自然语言指令与系统进行交互,从而实现更高水平的交互性。我们提出的方法称为 DetGPT,它利用最先进的多模态模型和开放词汇目标检测器,在用户指令和视觉场景的背景下进行推理。这使得 DetGPT 能够根据用户表达的需求自动定位感兴趣的物体,即使该物体没有被明确提及。

例如,如果用户表示想要一杯冷饮,DetGPT 可以分析图像,识别出冰箱,并利用其对冰箱内常见物品的了解来定位饮料。这种灵活性使我们的系统适用于从机器人技术、自动化到自动驾驶等广泛的领域。总体而言,我们提出的范式和 DetGPT 展示了人类与机器之间进行更复杂、更直观交互的潜力。我们希望我们提出的范式和方法将为业界带来启发,并为更具交互性和通用性的目标检测系统打开大门。

内容如下:

对话:

  • Assistant: The image depicts a scene from the video game "The Legend of Zelda: Breath of the Wild." In this game, there is a city called Gerudo Town, where only women are allowed and men are prohibited.
    • 助手:这张图片描绘了视频游戏《塞尔达传说:旷野之息》中的一个场景。在这个游戏中,有一个叫格鲁德镇的地方,那里只允许女性进入,男性禁止入内。
  • User: how to enter this city for Link?
    • 用户:林克要如何进入这个城市?
  • Assistant: In the game "The Legend of Zelda: Breath of the Wild," there is a city called Gerudo Town, where only women are allowed and men are prohibited. To enter this city, you need to find a way to disguise yourself as a woman. One way to do this is to wear a Gerudo outfit, which can be found in various locations throughout the game.
    • 助手:在游戏《塞尔达传说:旷野之息》中,有一个叫格鲁德镇的地方,只允许女性进入,男性禁止入内。要进入这个城市,你需要想办法把自己伪装成女性。一种方法是穿上格鲁德套装,这种套装可以在游戏中的各个地方找到。
  • Detected Objects: Gerudo outfit.
    • 检测到的物体:格鲁德套装。

例子

一部分是关于人们在草地上放风筝的描述和相关问题与答案;另一部分是关于办公桌及其上的物品的描述和相关问题与答案。

第一部分(放风筝场景):

标题:

  • 一些人在草地上放风筝。
  • 一个男孩在公园里玩风筝。
  • 一群人在公园里放着一只色彩斑斓的风筝。
  • 一位女士和一个小女孩在绿色的田野上拿着风筝。
  • 一群人站在田野上放着一只彩色的风筝。

物体:

  • 椅子、风筝、背包、人

描述:

图像展示了一群人在草地上放风筝。有些人站着,有些人坐在椅子上。一位女士和一个小女孩正抓着风筝,让它飞起来。背景中有树木和其他绿色植物。

查询与回答:

  1. 我想放风筝。我需要什么物体?答案:图像中有一个风筝,你可以用它来放风筝。因此答案是:[风筝]
  2. 找出图像中的所有人。答案:图像中有多个可见的人,站着或坐着放风筝。因此答案是:[人]
  3. 我想坐着放风筝。我能使用什么物体?答案:图像中有草地上的椅子,你可以用来坐着放风筝。因此答案是:[椅子]
  4. 找出所有颜色鲜艳的物体。答案:图像中有多个可见的物体,包括天空中飞翔的彩色风筝。因此答案是:[风筝]
  5. 找出所有用于携带东西的物体。答案:图像中有一个背包,可以用来携带东西。因此答案是:[背包]

    第二部分(办公桌场景):
    标题:
  • 两台电脑放在桌子上方。
  • 两台电脑放在一个大的木质电脑桌上。
  • 一张有键盘、笔记本电脑和显示器的桌子。
  • 一台电脑显示器旁边有一台键盘、笔记本电脑和鼠标。
  • 一台带有外部键盘、鼠标、电话和照片的笔记本电脑。

物体:

  • 椅子、人、电视、手机、杯子、笔记本电脑、鼠标、键盘

描述:

图像显示了一张桌子上放着各种电脑配件。桌子上有两台电脑,看起来都连接了外部键盘。除了电脑外,桌子上还有一台笔记本电脑、电脑显示器和鼠标。桌子上还有一部手机和一张照片。这张桌子似乎是木制的,场景中没有其他可见的物体或人。

查询与回答:

  1. 我如何打电话?答案:图像中有键盘、人、椅子、笔记本电脑、鼠标、杯子、手机和电视。要打电话,使用桌上的手机。因此答案是:[手机]
  2. 找出图像中的所有电子设备。答案:图像中有键盘、笔记本电脑、鼠标、电脑显示器、手机和电视。这些都是电子设备。因此答案是:[键盘、笔记本电脑、鼠标、电脑显示器、手机、电视]
  3. 找出所有可用于打字的物体。答案:图像中有键盘、笔记本电脑和外部键盘。这些都可以用来打字。因此答案是:[键盘、笔记本电脑、外部键盘]
  4. 你能找到任何黑色的物体吗?答案:图像中有键盘、人、椅子、笔记本电脑、鼠标、杯子、手机和电视。外部键盘和电脑鼠标是黑色的。因此答案是:[外部键盘、鼠标]
  5. 找出所有矩形形状的物体。答案:图像中有键盘、鼠标、电脑显示器、手机和电视。其中,电脑显示器和笔记本电脑可以被认为是矩形的。因此答案是:[电脑显示器、笔记本电脑]
相关推荐
一勺汤29 分钟前
YOLO11改进-注意力-引入多尺度卷积注意力模块MSCAM
yolo·目标检测·计算机视觉·改进·魔改·yolov11·yolov11改进
love you joyfully2 小时前
目标检测与R-CNN——paddle部分
人工智能·目标检测·cnn·paddle
西西弗Sisyphus2 小时前
开放世界目标检测 Grounding DINO
人工智能·目标检测·计算机视觉·大模型
风清扬雨3 小时前
【计算机视觉】超简单!傅里叶变换的经典案例
人工智能·计算机视觉
YangJZ_ByteMaster4 小时前
EndtoEnd Object Detection with Transformers
人工智能·深度学习·目标检测·计算机视觉
请站在我身后8 小时前
最新的强大的文生视频模型Pyramid Flow 论文阅读及复现
论文阅读·人工智能·神经网络·计算机视觉·stable diffusion·transformer
伊一大数据&人工智能学习日志8 小时前
OpenCV计算机视觉 02 图片修改 图像运算 边缘填充 阈值处理
人工智能·opencv·计算机视觉
一勺汤11 小时前
YOLOv8模型改进 第二十五讲 添加基于卷积调制(Convolution based Attention) 替换自注意力机制
深度学习·yolo·计算机视觉·模块·yolov8·yolov8改进·魔改
伊一大数据&人工智能学习日志13 小时前
OpenCV计算机视觉 01 图像与视频的读取操作&颜色通道
人工智能·opencv·计算机视觉