基于推理的目标检测 DetGPT

flyfish

detgpt.github.io

近年来，由于大型语言模型（LLMs）的发展，计算机视觉领域取得了重大进展。这些模型使人类与机器之间能够进行更有效、更复杂的交互，为模糊人类与机器智能界限的新技术铺平了道路。在本文中，我们引入了一种新的目标检测范式，我们称之为基于推理的目标检测。与依赖特定物体名称的传统目标检测方法不同，我们的方法允许用户使用自然语言指令与系统进行交互，从而实现更高水平的交互性。我们提出的方法称为 DetGPT，它利用最先进的多模态模型和开放词汇目标检测器，在用户指令和视觉场景的背景下进行推理。这使得 DetGPT 能够根据用户表达的需求自动定位感兴趣的物体，即使该物体没有被明确提及。

例如，如果用户表示想要一杯冷饮，DetGPT 可以分析图像，识别出冰箱，并利用其对冰箱内常见物品的了解来定位饮料。这种灵活性使我们的系统适用于从机器人技术、自动化到自动驾驶等广泛的领域。总体而言，我们提出的范式和 DetGPT 展示了人类与机器之间进行更复杂、更直观交互的潜力。我们希望我们提出的范式和方法将为业界带来启发，并为更具交互性和通用性的目标检测系统打开大门。

内容如下：

对话：

Assistant: The image depicts a scene from the video game "The Legend of Zelda: Breath of the Wild." In this game, there is a city called Gerudo Town, where only women are allowed and men are prohibited.
- 助手：这张图片描绘了视频游戏《塞尔达传说：旷野之息》中的一个场景。在这个游戏中，有一个叫格鲁德镇的地方，那里只允许女性进入，男性禁止入内。
User: how to enter this city for Link?
- 用户：林克要如何进入这个城市？
Assistant: In the game "The Legend of Zelda: Breath of the Wild," there is a city called Gerudo Town, where only women are allowed and men are prohibited. To enter this city, you need to find a way to disguise yourself as a woman. One way to do this is to wear a Gerudo outfit, which can be found in various locations throughout the game.
- 助手：在游戏《塞尔达传说：旷野之息》中，有一个叫格鲁德镇的地方，只允许女性进入，男性禁止入内。要进入这个城市，你需要想办法把自己伪装成女性。一种方法是穿上格鲁德套装，这种套装可以在游戏中的各个地方找到。
Detected Objects: Gerudo outfit.
- 检测到的物体：格鲁德套装。

例子

一部分是关于人们在草地上放风筝的描述和相关问题与答案；另一部分是关于办公桌及其上的物品的描述和相关问题与答案。

第一部分（放风筝场景）：

标题：

一些人在草地上放风筝。
一个男孩在公园里玩风筝。
一群人在公园里放着一只色彩斑斓的风筝。
一位女士和一个小女孩在绿色的田野上拿着风筝。
一群人站在田野上放着一只彩色的风筝。

物体：

椅子、风筝、背包、人

描述：

图像展示了一群人在草地上放风筝。有些人站着，有些人坐在椅子上。一位女士和一个小女孩正抓着风筝，让它飞起来。背景中有树木和其他绿色植物。

查询与回答：

我想放风筝。我需要什么物体？答案：图像中有一个风筝，你可以用它来放风筝。因此答案是：[风筝]
找出图像中的所有人。答案：图像中有多个可见的人，站着或坐着放风筝。因此答案是：[人]
我想坐着放风筝。我能使用什么物体？答案：图像中有草地上的椅子，你可以用来坐着放风筝。因此答案是：[椅子]
找出所有颜色鲜艳的物体。答案：图像中有多个可见的物体，包括天空中飞翔的彩色风筝。因此答案是：[风筝]
找出所有用于携带东西的物体。答案：图像中有一个背包，可以用来携带东西。因此答案是：[背包]

第二部分（办公桌场景）：
标题：

两台电脑放在桌子上方。
两台电脑放在一个大的木质电脑桌上。
一张有键盘、笔记本电脑和显示器的桌子。
一台电脑显示器旁边有一台键盘、笔记本电脑和鼠标。
一台带有外部键盘、鼠标、电话和照片的笔记本电脑。

物体：

椅子、人、电视、手机、杯子、笔记本电脑、鼠标、键盘

描述：

图像显示了一张桌子上放着各种电脑配件。桌子上有两台电脑，看起来都连接了外部键盘。除了电脑外，桌子上还有一台笔记本电脑、电脑显示器和鼠标。桌子上还有一部手机和一张照片。这张桌子似乎是木制的，场景中没有其他可见的物体或人。

查询与回答：

我如何打电话？答案：图像中有键盘、人、椅子、笔记本电脑、鼠标、杯子、手机和电视。要打电话，使用桌上的手机。因此答案是：[手机]
找出图像中的所有电子设备。答案：图像中有键盘、笔记本电脑、鼠标、电脑显示器、手机和电视。这些都是电子设备。因此答案是：[键盘、笔记本电脑、鼠标、电脑显示器、手机、电视]
找出所有可用于打字的物体。答案：图像中有键盘、笔记本电脑和外部键盘。这些都可以用来打字。因此答案是：[键盘、笔记本电脑、外部键盘]
你能找到任何黑色的物体吗？答案：图像中有键盘、人、椅子、笔记本电脑、鼠标、杯子、手机和电视。外部键盘和电脑鼠标是黑色的。因此答案是：[外部键盘、鼠标]
找出所有矩形形状的物体。答案：图像中有键盘、鼠标、电脑显示器、手机和电视。其中，电脑显示器和笔记本电脑可以被认为是矩形的。因此答案是：[电脑显示器、笔记本电脑]