在线教程丨YOLO系列重要创新！清华团队发布YOLOE，直击开放场景物体实时检测与分割

神经星星2025-04-01 16:53

YOLO (You Only Look Once) 自 2015 年首次发布以来，已经成为计算机视觉领域中最具影响力的实时目标检测模型之一。这项基于单阶段 (One-Stage) 检测架构的端到端目标检测技术，在 10 年间已经更新了十余个版本，凭借高精度且高帧率图像的实时处理，广泛应用于自动驾驶、医疗影像分析、机器人视觉等多个领域。

然而，传统的 YOLO 系列模型虽然利用卷积神经网络实现了高性能的实时检测，但其依赖于预定义的目标类别，在实际的开放场景中缺乏灵活性。

针对这一问题，清华大学团队在 YOLO 的基础上，提出了开放物体探测与分割模型 YOLOE，支持文本提示 (text prompts)、视觉提示 (visual cues) 和无提示 (prompt-free) 三类场景， 这一多模态能力使其既能听懂语言指令，又能看懂图像，甚至还能自主发现新事物，实现了真正的「实时看见一切」。

目前 HyperAI超神经官网的教程板块已经上线了「YOLOE：实时看见一切」的一键部署教程，感兴趣的小伙伴快来体验吧！

教程链接：

go.hyper.ai/U2PXt

点击查看超全 YOLO 系列教程：在线教程丨YOLO 系列 10 年更新 11 个版本，最新模型在目标检测多项任务中达 SOTA

Demo 运行

1.登录 hyper.ai，在「教程」页面，选择「YOLOE：实时看见一切」，点击「在线运行此教程」。

2.页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3.选择「NVIDIA RTX 4090」以及「PyTorch」镜像，OpenBayes 平台上线了新的计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI超神经专属邀请链接（直接复制到浏览器打开）：

go.openbayes.com/9S6Dr

4.等待分配资源，首次克隆需等待约 2 分钟左右的时间。当状态变为「运行中」后，点击「API 地址」旁边的跳转箭头，即可跳转至 Demo 页面。由于模型较大，需等待约 3 分钟显示 WebUI 界面，否则将显示「Bad Gateway」。请注意，用户需在实名认证后才能使用 API 地址访问功能。

效果展示

首先是文本提示检测， YOLOE 支持任意文本类别的文本提示检测与分割。下图输入的文本为「tiger, bus, person」，检测结果如右图所示，清晰识别出图中的老虎、观光巴士和游客。可以看到，即使是头部被遮挡和身处暗处的游客也被清晰识别出来了。

其次是视觉提示， 通过框 / 点 / 手绘形状 / 参考图等方式指定检测目标后，即可精准识别同类检测对象，效果如下图所示：

最后是全自动无提示检测， 能够自动识别场景对象，如下图所示：

以上就是 HyperAI超神经本期为大家推荐的教程，快来上手亲自体验吧！

教程链接：

go.hyper.ai/U2PXt

上一篇：🌟《从一到二：基于Trae的多智能体合作Prompt自动生成迭代指南》

下一篇：Node.js Express 处理静态资源

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04安娜的档案(Anna’s Archive) 镜像网站/国内最新可访问入口（持续更新）05Linux下V2Ray安装配置指南 06《大数据技术原理与应用》实验报告三熟悉HBase常用操作 07jdk21下载、安装（Windows、Linux、macOS）08综合整理：pdf预览显示：你尝试预览的文件可能对你的计算机有害。如果你信任此文件以及其来源，请打开此文件以看其内容，如何解决以正常预览文件 09智能库存管理的需求预测模型：从业务痛点到落地代码的完整实践 102025 最新教程：注册并切换到美区 Apple ID