YOLO-World: Real-Time Open-Vocabulary Object Detection论文阅读YOLO系列检测器凭借高效实用的特性已获得广泛应用。然而,其依赖预定义训练对象类别的局限性,制约了其在开放场景中的应用。针对这一缺陷,提出YOLO-World创新方案——通过视觉-语言建模和大规模数据预训练,赋予YOLO开放词汇检测能力。 具体而言,开发了可重参数化视觉语言路径聚合网络(RepVL-PAN)和区域-文本对比损失函数,有效促进视觉与语言信息的交互。该方法在零样本检测场景中展现出卓越性能,能高效识别各类物体。 在具有挑战性的LVIS数据集上,YOLO-World在V100架构上实现35.4 A