在线教程丨YOLO系列重要创新!清华团队发布YOLOE,直击开放场景物体实时检测与分割

YOLO (You Only Look Once) 自 2015 年首次发布以来,已经成为计算机视觉领域中最具影响力的实时目标检测模型之一。这项基于单阶段 (One-Stage) 检测架构的端到端目标检测技术,在 10 年间已经更新了十余个版本,凭借高精度且高帧率图像的实时处理,广泛应用于自动驾驶、医疗影像分析、机器人视觉等多个领域。

然而,传统的 YOLO 系列模型虽然利用卷积神经网络实现了高性能的实时检测,但其依赖于预定义的目标类别,在实际的开放场景中缺乏灵活性。

针对这一问题,清华大学团队在 YOLO 的基础上,提出了开放物体探测与分割模型 YOLOE,支持文本提示 (text prompts)、视觉提示 (visual cues) 和无提示 (prompt-free) 三类场景, 这一多模态能力使其既能听懂语言指令,又能看懂图像,甚至还能自主发现新事物,实现了真正的「实时看见一切」。

目前 HyperAI超神经官网的教程板块已经上线了「YOLOE:实时看见一切」的一键部署教程,感兴趣的小伙伴快来体验吧!

教程链接:

go.hyper.ai/U2PXt

点击查看超全 YOLO 系列教程:在线教程丨YOLO 系列 10 年更新 11 个版本,最新模型在目标检测多项任务中达 SOTA

Demo 运行

1.登录 hyper.ai,在「教程」页面,选择「YOLOE:实时看见一切」,点击「在线运行此教程」。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

go.openbayes.com/9S6Dr

4.等待分配资源,首次克隆需等待约 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。由于模型较大,需等待约 3 分钟显示 WebUI 界面,否则将显示「Bad Gateway」。请注意,用户需在实名认证后才能使用 API 地址访问功能。

效果展示

首先是文本提示检测, YOLOE 支持任意文本类别的文本提示检测与分割。下图输入的文本为「tiger, bus, person」,检测结果如右图所示,清晰识别出图中的老虎、观光巴士和游客。可以看到,即使是头部被遮挡和身处暗处的游客也被清晰识别出来了。

其次是视觉提示, 通过框 / 点 / 手绘形状 / 参考图等方式指定检测目标后,即可精准识别同类检测对象,效果如下图所示:

最后是全自动无提示检测, 能够自动识别场景对象,如下图所示:

以上就是 HyperAI超神经本期为大家推荐的教程,快来上手亲自体验吧!

教程链接:

go.hyper.ai/U2PXt

相关推荐
tongxianchao几秒前
LaCo: Large Language Model Pruning via Layer Collapse
人工智能·语言模型·剪枝
HyperAI超神经27 分钟前
OmniGen2 多模态推理×自我纠正双引擎,引领图像生成新范式;95 万分类标签!TreeOfLife-200M 解锁物种认知新维度
人工智能·数据挖掘·数据集·图像生成·医疗健康·在线教程·数学代码
网安INF38 分钟前
深度学习中批标准化与神经网络调优
人工智能·深度学习·神经网络·机器学习
开开心心_Every39 分钟前
便捷的电脑自动关机辅助工具
开发语言·人工智能·pdf·c#·电脑·音视频·sublime text
EnochChen_40 分钟前
多实例学习简介
人工智能
路溪非溪42 分钟前
Tensorflow的安装记录
人工智能·tensorflow·neo4j
jndingxin1 小时前
OpenCV 人脸分析----人脸识别的一个经典类cv::face::EigenFaceRecognizer
人工智能·opencv·计算机视觉
说私域1 小时前
开源链动2+1模式与AI智能名片融合下的S2B2C商城小程序源码:重构大零售时代新生态
人工智能·重构·开源
用什么都重名2 小时前
MinerU:高效智能PDF文档解析工具完全指南
人工智能·python·pdf·mineru·makedown
好心的小明2 小时前
【王树森推荐系统】召回05:矩阵补充、最近邻查找
人工智能·推荐系统