在线教程丨YOLO系列重要创新!清华团队发布YOLOE,直击开放场景物体实时检测与分割

YOLO (You Only Look Once) 自 2015 年首次发布以来,已经成为计算机视觉领域中最具影响力的实时目标检测模型之一。这项基于单阶段 (One-Stage) 检测架构的端到端目标检测技术,在 10 年间已经更新了十余个版本,凭借高精度且高帧率图像的实时处理,广泛应用于自动驾驶、医疗影像分析、机器人视觉等多个领域。

然而,传统的 YOLO 系列模型虽然利用卷积神经网络实现了高性能的实时检测,但其依赖于预定义的目标类别,在实际的开放场景中缺乏灵活性。

针对这一问题,清华大学团队在 YOLO 的基础上,提出了开放物体探测与分割模型 YOLOE,支持文本提示 (text prompts)、视觉提示 (visual cues) 和无提示 (prompt-free) 三类场景, 这一多模态能力使其既能听懂语言指令,又能看懂图像,甚至还能自主发现新事物,实现了真正的「实时看见一切」。

目前 HyperAI超神经官网的教程板块已经上线了「YOLOE:实时看见一切」的一键部署教程,感兴趣的小伙伴快来体验吧!

教程链接:

go.hyper.ai/U2PXt

点击查看超全 YOLO 系列教程:在线教程丨YOLO 系列 10 年更新 11 个版本,最新模型在目标检测多项任务中达 SOTA

Demo 运行

1.登录 hyper.ai,在「教程」页面,选择「YOLOE:实时看见一切」,点击「在线运行此教程」。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

go.openbayes.com/9S6Dr

4.等待分配资源,首次克隆需等待约 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。由于模型较大,需等待约 3 分钟显示 WebUI 界面,否则将显示「Bad Gateway」。请注意,用户需在实名认证后才能使用 API 地址访问功能。

效果展示

首先是文本提示检测, YOLOE 支持任意文本类别的文本提示检测与分割。下图输入的文本为「tiger, bus, person」,检测结果如右图所示,清晰识别出图中的老虎、观光巴士和游客。可以看到,即使是头部被遮挡和身处暗处的游客也被清晰识别出来了。

其次是视觉提示, 通过框 / 点 / 手绘形状 / 参考图等方式指定检测目标后,即可精准识别同类检测对象,效果如下图所示:

最后是全自动无提示检测, 能够自动识别场景对象,如下图所示:

以上就是 HyperAI超神经本期为大家推荐的教程,快来上手亲自体验吧!

教程链接:

go.hyper.ai/U2PXt

相关推荐
liuyunshengsir1 分钟前
AI Agent 实战:搭建个人在线旅游助手
人工智能·旅游
Shawn_Shawn2 分钟前
大模型微调介绍
人工智能
TiAmo zhang5 分钟前
DeepSeek-R1 模型现已在亚马逊云科技上提供
人工智能·云计算·aws
liruiqiang056 分钟前
循环神经网络 - 简单循环网络
人工智能·rnn·深度学习·神经网络·机器学习
Erica_zhase28 分钟前
GPT-4o推出的原生图像生成功能升级后有点东西!
人工智能
青花瓷34 分钟前
智谱大模型(ChatGLM3)PyCharm的调试指南
人工智能·python·大模型·智谱大模型
说私域43 分钟前
基于开源AI大模型与S2B2C模式的线下服务型门店增长策略研究——以AI智能名片与小程序源码技术为核心
大数据·人工智能·小程序·开源
V_HY147621 小时前
AI碰一碰发视频获客工具,系统开发逻辑详细解析
大数据·人工智能·新媒体运营·流量运营
鸿蒙布道师1 小时前
OpenAI战略转向:开源推理模型背后的行业博弈与技术趋势
人工智能·深度学习·神经网络·opencv·自然语言处理·openai·deepseek
白雪讲堂1 小时前
AISEO (GEO )中的知识图谱
人工智能·chatgpt·知识图谱