在线教程丨YOLO系列重要创新!清华团队发布YOLOE,直击开放场景物体实时检测与分割

YOLO (You Only Look Once) 自 2015 年首次发布以来,已经成为计算机视觉领域中最具影响力的实时目标检测模型之一。这项基于单阶段 (One-Stage) 检测架构的端到端目标检测技术,在 10 年间已经更新了十余个版本,凭借高精度且高帧率图像的实时处理,广泛应用于自动驾驶、医疗影像分析、机器人视觉等多个领域。

然而,传统的 YOLO 系列模型虽然利用卷积神经网络实现了高性能的实时检测,但其依赖于预定义的目标类别,在实际的开放场景中缺乏灵活性。

针对这一问题,清华大学团队在 YOLO 的基础上,提出了开放物体探测与分割模型 YOLOE,支持文本提示 (text prompts)、视觉提示 (visual cues) 和无提示 (prompt-free) 三类场景, 这一多模态能力使其既能听懂语言指令,又能看懂图像,甚至还能自主发现新事物,实现了真正的「实时看见一切」。

目前 HyperAI超神经官网的教程板块已经上线了「YOLOE:实时看见一切」的一键部署教程,感兴趣的小伙伴快来体验吧!

教程链接:

go.hyper.ai/U2PXt

点击查看超全 YOLO 系列教程:在线教程丨YOLO 系列 10 年更新 11 个版本,最新模型在目标检测多项任务中达 SOTA

Demo 运行

1.登录 hyper.ai,在「教程」页面,选择「YOLOE:实时看见一切」,点击「在线运行此教程」。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

go.openbayes.com/9S6Dr

4.等待分配资源,首次克隆需等待约 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。由于模型较大,需等待约 3 分钟显示 WebUI 界面,否则将显示「Bad Gateway」。请注意,用户需在实名认证后才能使用 API 地址访问功能。

效果展示

首先是文本提示检测, YOLOE 支持任意文本类别的文本提示检测与分割。下图输入的文本为「tiger, bus, person」,检测结果如右图所示,清晰识别出图中的老虎、观光巴士和游客。可以看到,即使是头部被遮挡和身处暗处的游客也被清晰识别出来了。

其次是视觉提示, 通过框 / 点 / 手绘形状 / 参考图等方式指定检测目标后,即可精准识别同类检测对象,效果如下图所示:

最后是全自动无提示检测, 能够自动识别场景对象,如下图所示:

以上就是 HyperAI超神经本期为大家推荐的教程,快来上手亲自体验吧!

教程链接:

go.hyper.ai/U2PXt

相关推荐
qq_1249870753几秒前
基于JavaWeb的大学生房屋租赁系统(源码+论文+部署+安装)
java·数据库·人工智能·spring boot·计算机视觉·毕业设计·计算机毕业设计
杜子不疼.1 分钟前
CANN算子基础框架库opbase的算子开发与扩展机制深度解析
人工智能
程序猿追2 分钟前
CANN ops-math仓库解读 数学算子的底层支撑与高性能实现
人工智能·架构
结局无敌2 分钟前
统一算子语言:cann/ops-nn 如何为异构AI世界建立通用“方言”
人工智能·cann
杜子不疼.9 分钟前
CANN计算机视觉算子库ops-cv的图像处理与特征提取优化实践
图像处理·人工智能·计算机视觉
大闲在人10 分钟前
软件仍将存在,但软件公司会以全新形式出现——从Claude智能体引发万亿市值震荡看行业重构
人工智能
艾莉丝努力练剑11 分钟前
【Linux:文件】Ext系列文件系统(初阶)
大数据·linux·运维·服务器·c++·人工智能·算法
芷栀夏15 分钟前
从 CANN 开源项目看现代爬虫架构的演进:轻量、智能与统一
人工智能·爬虫·架构·开源·cann
梦帮科技24 分钟前
OpenClaw 桥接调用 Windows MCP:打造你的 AI 桌面自动化助手
人工智能·windows·自动化
User_芊芊君子28 分钟前
【分布式训练】CANN SHMEM跨设备内存通信库:构建高效多机多卡训练的关键组件
分布式·深度学习·神经网络·wpf