前不久,清华大学研究团队继YOLOv10后再次推出全新模型**YOLOE(Real-Time Seeing Anything)。**
它能像人眼一样,在文本、视觉输入和无提示范式等不同机制下进行检测和分割。有趣的是其无提示功能与Mate的SAM模型十分相似。
当然YOLOE不仅继承了YOLO系列实时高效的基因,还深度融合零样本学习与多模态提示能力,将目标检测与图像分割推向了开放世界的通用感知新高度。
论文题目:YOLOE:Real-Time Seeing Anything
论文链接:arxiv.org/abs/2503.07...
LVIS 数据集:docs.ultralytics.com/datasets/de...
一、YOLOE核心突破
零样本性能:无需训练即可识别新对象
YOLOE的核心创新在于其零样本(Zero-Shot)学习架构。通过集成苹果MobileCLIP文本编码器的预训练嵌入,模型可直接将文本描述(如"戴墨镜的柴犬")映射到视觉特征空间,在LVIS数据集上仅用1/3训练时间即达到与YOLO-Worldv2相当的精度。
多模态提示:文本、视觉、无提示全支持
YOLOE首次在单一模型中整合了文本提示、视觉提示和无提示机制,实现了开放场景中的灵活物体检测和分割。
- 文本提示: 支持自然语言指令驱动检测(如"所有红色交通标志"),准确率超95%。
- 视觉提示: 用户绘制边界框或掩膜,模型自动分割同类对象,工业质检中瑕疵检测效率提升40%。
- 无提示模式: 在无输入时自动生成接近SAM(Segment Anything Model)的分割结果,虽速度稍慢但覆盖性更强。
极速推理:比YOLO-Worldv2更高效
通过优化模型架构(如一致性双分配策略)和预训练嵌入技术,YOLOE在NVIDIA RTX 4060 GPU上的推理延迟比同类模型降低15%,实测单帧处理仅需20ms,满足自动驾驶、工业质检等实时场景需求。
二、YOLOE的框架设计
YOLOE采用了典型的YOLO架构,包括骨干、PAN、回归头、分割头和对象嵌入头。骨干和PAN为图像提取多尺度特征。对于每个锚点,回归头预测用于检测的边界框,分割头生成用于分割的原型和掩码系数。对象嵌入头遵循YOLO中分类头的结构,只是最后一个 1× 卷积层的输出通道数从闭集场景中的类数更改为嵌入维度。
针对文本提示、视觉提示和无提示场景YOLOE分别提出了以下策略:
- Re-parameterizable Region-Text Alignment (RepRTA): 通过轻量级辅助网络优化预训练的文本嵌入,增强视觉-文本对齐,且在推理和迁移时无额外开销。
- Semantic-Activated Visual Prompt Encoder (SAVPE): 通过分离的语义分支和激活分支,以最小的复杂度提升视觉嵌入和准确性。
它具有两个解耦的轻量级分支:(1) 语义分支在 D 通道中输出与提示无关的语义特征,而无需融合视觉提示的开销;(2) 激活分支通过在低成本下在更少的通道中将视觉提示与图像特征交互来产生分组的提示感知权重。然后,它们的聚合会在最小复杂度下产生信息丰富的提示嵌入。
- Lazy Region-Prompt Contrast (LRPC): 利用内置大词汇表和专用嵌入识别所有对象,避免依赖昂贵的语言模型。
这些策略使得YOLOE能够在多种开放提示机制下实现检测和分割,同时保持高推理效率和低训练成本。
三、Coovally AI模型训练与应用平台
如果你想要第一时间使用YOLOE模型,Coovally平台满足你的要求!
Coovally平台整合了国内外开源社区1000+模型算法 和各类公开识别数据集,无论是最新的YOLOE、YOLO12模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。
而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码!
具体操作步骤可参考:YOLO11全解析:从原理到实战,全流程体验下一代目标检测
平台链接:www.coovally.com
如果你想要另外的模型算法 和数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!
四、实验比较
作者将YOLOE基于YOLOv8和YOLOv11架构开展了实验,并提供了不同的模型尺度。如下表所示,对于LVIS上的检测,YOLOE在不同模型尺度上表现出效率和零样本性能之间的良好平衡。
在LVIS数据集上进行零样本检测评估,YOLOE在不同模型规模下均展现出优异的性能和效率。例如,YOLOE-v8-S在3倍少的训练成本下,比YOLO-Worldv2-S高出3.5 AP,且在T4 GPU和iPhone 12上的推理速度分别提高了1.4倍和1.3倍。
在LVIS数据集上进行零样本分割评估,YOLOE-v8-M和YOLOE-v8-L分别比YOLO-Worldv2-M和YOLO-Worldv2-L高出3.0和3.7 APm。
与T-Rex2相比,YOLOE-v8-L在视觉提示下提高了3.3 APr和0.9 APc,同时训练数据量减少了一半,训练资源也显著降低。
无提示场景评估
在无提示场景下,YOLOE通过LRPC策略,利用内置大词汇表进行类别检索,避免了依赖语言模型。YOLOE-v8-L在LVIS minival集上达到了27.2 AP,比GenerateU(使用Swin-T骨干网络)高出0.4 AP,且参数量减少了6.3倍,推理速度提高了53倍。
下游任务迁移
在将YOLOE迁移到COCO数据集进行下游闭集检测和分割时,YOLOE在有限的训练周期内展现出良好的性能。例如,在线性探测策略下,YOLOE-11-M和YOLOE-11-L在不到2%的训练时间内,分别达到了YOLO11-M和YOLO11-L超过80%的性能。
在全调优策略下,YOLOE在有限的训练成本下进一步提升了性能。例如,YOLOE-v8-M和YOLOE-v8-L在不到YOLOv8-M和YOLOv8-L四分之一的训练时间下,分别提高了0.4 APm和0.6 APb。
可视化分析
此外,研究人员对 YOLOE 开展了四种场景的可视化分析:
图 (a):在 LVIS 上进行零样本推理,以类别名称作为文本提示
图 (b):可输入任意文本作为提示
图 (c):能绘制视觉线索作为提示
图 (d):无明确提示,模型自动识别所有对象。
结论
YOLOE通过整合多种开放提示机制,在保持高效率的同时,显著提升了模型在开放场景下的适应性和性能。它在多种场景下展现出优异的性能和效率,包括零样本检测、分割以及无提示场景,并且在迁移到下游任务时也表现出良好的迁移能力。YOLOE的提出为实时开放提示驱动的视觉任务提供了一个强大的基线,并有望激发更多相关研究。