在线教程丨YOLO系列重要创新!清华团队发布YOLOE,直击开放场景物体实时检测与分割

YOLO (You Only Look Once) 自 2015 年首次发布以来,已经成为计算机视觉领域中最具影响力的实时目标检测模型之一。这项基于单阶段 (One-Stage) 检测架构的端到端目标检测技术,在 10 年间已经更新了十余个版本,凭借高精度且高帧率图像的实时处理,广泛应用于自动驾驶、医疗影像分析、机器人视觉等多个领域。

然而,传统的 YOLO 系列模型虽然利用卷积神经网络实现了高性能的实时检测,但其依赖于预定义的目标类别,在实际的开放场景中缺乏灵活性。

针对这一问题,清华大学团队在 YOLO 的基础上,提出了开放物体探测与分割模型 YOLOE,支持文本提示 (text prompts)、视觉提示 (visual cues) 和无提示 (prompt-free) 三类场景, 这一多模态能力使其既能听懂语言指令,又能看懂图像,甚至还能自主发现新事物,实现了真正的「实时看见一切」。

目前 HyperAI超神经官网的教程板块已经上线了「YOLOE:实时看见一切」的一键部署教程,感兴趣的小伙伴快来体验吧!

教程链接:

go.hyper.ai/U2PXt

点击查看超全 YOLO 系列教程:在线教程丨YOLO 系列 10 年更新 11 个版本,最新模型在目标检测多项任务中达 SOTA

Demo 运行

1.登录 hyper.ai,在「教程」页面,选择「YOLOE:实时看见一切」,点击「在线运行此教程」。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

go.openbayes.com/9S6Dr

4.等待分配资源,首次克隆需等待约 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。由于模型较大,需等待约 3 分钟显示 WebUI 界面,否则将显示「Bad Gateway」。请注意,用户需在实名认证后才能使用 API 地址访问功能。

效果展示

首先是文本提示检测, YOLOE 支持任意文本类别的文本提示检测与分割。下图输入的文本为「tiger, bus, person」,检测结果如右图所示,清晰识别出图中的老虎、观光巴士和游客。可以看到,即使是头部被遮挡和身处暗处的游客也被清晰识别出来了。

其次是视觉提示, 通过框 / 点 / 手绘形状 / 参考图等方式指定检测目标后,即可精准识别同类检测对象,效果如下图所示:

最后是全自动无提示检测, 能够自动识别场景对象,如下图所示:

以上就是 HyperAI超神经本期为大家推荐的教程,快来上手亲自体验吧!

教程链接:

go.hyper.ai/U2PXt

相关推荐
Exploring6 分钟前
从零搭建使用 Open-AutoGML 搜索附近的美食
android·人工智能
阿里云大数据AI技术20 分钟前
在 DataWorks 中一键部署大模型,即刻用于数据集成和数据开发
人工智能
AI科技星26 分钟前
质量定义方程常数k = 4π m_p的来源、推导与意义
服务器·数据结构·人工智能·科技·算法·机器学习·生活
机器之心41 分钟前
OpenAI推出全新ChatGPT Images,奥特曼亮出腹肌搞宣传
人工智能·openai
机器之心43 分钟前
SIGGRAPH Asia 2025:摩尔线程赢图形顶会3DGS挑战赛大奖,自研LiteGS全面开源
人工智能·openai
_Stellar1 小时前
从输入到输出:大语言模型一次完整推理简单解析
人工智能·语言模型·自然语言处理
【建模先锋】1 小时前
特征提取+概率神经网络 PNN 的轴承信号故障诊断模型
人工智能·深度学习·神经网络·信号处理·故障诊断·概率神经网络·特征提取
轲轲011 小时前
Week02 深度学习基本原理
人工智能·深度学习
老蒋新思维1 小时前
创客匠人:认知即资产 ——AI 时代创始人 IP 知识变现的底层逻辑
网络·人工智能·网络协议·tcp/ip·重构·创始人ip·创客匠人