开放词汇检测新晋SOTA：地瓜机器人开源DOSOD实时检测算法

在计算机视觉领域，目标检测是一项关键技术，旨在识别图像或视频中感兴趣物体的位置与类别。传统的闭集检测长期占据主导地位，但近年来，开放词汇检测（Open-Vocabulary Object Detection-OVOD 或者 Open-Set Object Detection-OSOD）崭露头角，为目标检测带来了新的活力与可能性。与闭集检测相比，开放词汇检测打破了检测类别固定的"枷锁"，它在训练时利用丰富多样的文本 - 区域对（text-region pairs）数据，将文本作为类别标签，大大拓宽了可检测的范围。尤其是在机器人感受周围环境的任务中，能够起到极大的帮助。

目前主流的开放词汇检测算法有Grounding-DINO系列和YOLO-World。在海量的私有数据集的加持下，前者具有非常强大的检测能力，精度遥遥领先，其模型依赖参数量较大的Transformer结构，实时性较弱。后者依赖轻量级的Convolution结构，能够达到实时推理的效率，精度上依然不错。

DOSOD（Decoupled Open-Set Object Detection）是地瓜机器人最新发布的开放词汇目标检测算法，力求在低算力边缘端实现更高的推理效率，同时带来比YOLO-World更具竞争力的精度表现。在算法上，DOSOD采用了独特的解耦特征对齐策略，摒弃了传统的图像-文本交互方式，通过基于MLPs的特征适配模块对图像与文本的特征进行优化与对齐，进一步提升了模型的推理效率和精度。

实验结果显示，DOSOD在多个公开数据集（如LVIS）上的表现超越了YOLO-World-v2，并在边缘AI计算平台上展现了压倒性的效率优势。

文章开源地址：https://arxiv.org/abs/2412.14680

代码开源地址：https://github.com/D-Robotics-AI-Lab/DOSOD

文章由地瓜机器人应用算法部，中科院自动化所多模态人工智能系统全国重点实验室，苏州大学未来学院，上海科技大学信息科学技术学院联合出品。

DOSOD的基本原理

目前主流的开放词汇检测对齐策略主要分为以下三种：

(a) 教师 - 学生蒸馏方法

描述：利用 VLM（视觉语言模型）的文本编码器生成的文本嵌入来监督图像特征和检测器特征的对齐。也可以通过裁剪图像区域来对齐特征。
总结：通过 VLM 的文本编码器来指导图像和检测器特征的对齐。

(b) 基于交互的对齐策略

描述：文本嵌入与检测器骨干网络提取的图像特征进行交互，以实现对齐。
总结：通过文本嵌入与图像特征的交互来实现特征对齐。

(c) 提出的解耦对齐策略

描述：在不进行交互的情况下对齐特征，通过视觉 - 语言特征适配来实现。
总结：采用解耦方式，不依赖交互来进行特征对齐。

**DOSOD（Decoupled Open-Set Object Detection）属于第三种开放词汇检测对齐策略------解耦对齐策略。**该方法的核心思想是通过将文本和图像模态的特征解耦，以实现更高效的对齐过程，从而在保证检测精度的同时大幅提升推理速度。

在此基础上，DOSOD 洞察到了闭集检测 与开放词汇检测 之间的本质联系，提出了全新的结构框架（如上图所示）。具体来说，DOSOD将传统分类分支最后的卷积操作等价地解构为两个模态的特征对齐操作，从而激发出解耦的特征学习和共同空间对齐的结构。

在该框架中，类别标签文本首先通过一个文本编码器（来自VLM）生成初步的Text Embedding，然后经过一个基于MLPs的特征适应模块，对Text Embedding进行特征优化，为Joint Space中的对齐操作做准备。

在图像侧，DOSOD 使用经典的单阶段目标检测器（文中使用了YOLOv8）来提取图像的多尺度特征图。每个特征点表示图像中的一个区域特征。最后，在Joint Space中，通过计算Text Embedding与Region Feature之间的相似度，从而完成特征对齐。

DOSOD的实验结果

在实验部分，DOSOD 在公开数据集上进行了预训练，并在LVIS 和COCO 数据集上进行了Zero-shot 验证。DOSOD均拥有优秀的精度表现：

在LVIS数据集上，相较于YOLO-World-v2，DOSOD精度全面领先，并与YOLO-World-v1不分伯仲。

在COCO数据集上，DOSOD整体精度要略低于YOLO-World，但YOLO-World-v2的精度微高于YOLO-World-v1，也一定程度上说明，COCO由于词汇丰富程度较低，不太适用于开放词汇检测任务评测。

在推理速度上，通过将DOSOD 与YOLO-World 在NVIDIA RTX 4090 和D-Robotics RDK X5上进行全面对比，我们可以看到：

DOSOD 在主流的服务器级别的芯片上，推理效率是显著高于YOLO-World。

在边缘侧的AI计算平台上，DOSOD 以碾压式的效率提升，远远超越YOLO-World。

DOSOD的应用效果

DOSOD开放词汇检测算法有着广泛的应用场景，既能用于常规检测任务里的目标检测，也可以应用在特殊场景下长尾目标类型的检测任务当中。针对某些极端长尾的目标类型，只需收集少量相关数据进行微调，就能显著提高模型的稳定性和检测效果。

DOSOD 在常规目标检测上的检测效果

在闭集目标检测任务中，COCO数据集预先定义了80个固定类别。我们可以看到，在经过大数据量的开放词汇数据集预训练后，DOSOD能够检测出诸多长尾类别，如图2左下角的"heater"，图4中的"shoe"和"wheel"，而这些词汇并未包含在COCO数据集的80个类别之内。

DOSOD 在特殊场景的长尾类别上的检测效果

以下展示的是扫地机视角下的图像，任务要求是检测出地面上的各类污渍或障碍物，这些类别并不是常规目标检测任务中的标准类别。通过少量数据的微调，DOSOD成功识别了这些特殊类别，为在该场景中准确检测出多样化的长尾类别发挥了关键作用。

DOSOD 作为一款新兴的开放词汇检测算法，凭借创新的解耦特征对齐策略，在提升推理效率的同时，成功地保证了精度，展示出了极强的应用潜力。未来，随着计算资源的提升与算法的不断优化，DOSOD有望在机器人、自动驾驶、智能家居等领域提供更加高效精准的目标检测解决方案。

作为地瓜机器人前沿算法研究的最新成果，DOSOD不仅在精度上超越了对标方法，更成功解决了推理效率与低算力设备适应性之间的挑战，为智能机器人技术的普及与发展提供了有力支持。

未来，地瓜机器人将秉承"成为机器人时代的Wintel"的品牌初心，持续与客户一同深入应用场景，在提供拥有极致性能表现的硬件的同时，为行业客户和开发者提供丰富的具有实用价值的算法，加速机器人技术的落地和广泛应用。