教程上新丨英伟达开源 LocateAnything,3B 模型可实现图像 + 视频的目标指向 / 开放词汇目标检测/指代表达定位 / OCR 文本定位等功能

随着视觉语言模型(VLM)持续向 Agent、多模态交互和现实世界任务演进,「看懂图片」已经不再是终点,更重要的是「准确找到目标在哪里」。无论是开放词汇目标检测、GUI Agent 的界面操作、文档理解,还是机器人与自动驾驶系统中的环境感知,都对视觉定位(Visual Grounding)能力提出了越来越高的要求。

然而,现有主流视觉语言模型在处理定位任务时普遍采用「坐标 Token 生成」方案,即将一个二维目标框拆分为多个一维坐标 Token,再逐个生成和解码。这种方式不仅难以充分保持目标框内部几何结构的一致性,还会因为严格的顺序生成机制限制推理速度。 当模型需要同时处理大量目标时,定位效率和精度往往难以兼顾。

针对这一长期存在的瓶颈,NVIDIA 于近期开源了 Eagle VLM 系列中的新成员------LocateAnything-3B。 这是一款拥有 30 亿参数的视觉语言定位模型,支持开放词汇目标检测、指代表达定位、OCR 文本定位、GUI 元素定位以及图像和视频中的目标指向等多种任务,旨在构建统一的视觉定位与检测框架。

LocateAnything-3B 的核心创新来自一种名为 Parallel Box Decoding(PBD,并行框解码)的新机制。与传统方法逐个生成坐标 Token 不同,PBD 可以将边界框、关键点等几何元素作为完整结构一次性并行预测。 这样的设计不仅保留了目标框内部的几何一致性,也显著提升了解码吞吐量,使模型能够在保持高精度定位能力的同时实现更快的推理速度。

除了架构创新,NVIDIA 还围绕该模型构建了大规模训练体系。研究团队开发了可扩展的数据引擎,并推出包含超过 1.38 亿训练样本的 LocateAnything-Data 数据集,覆盖自然场景、机器人、自动驾驶、GUI 交互、文档理解以及 OCR 等多个领域,大幅提升了模型在复杂场景下的泛化能力。

实验结果显示,LocateAnything 在多个视觉定位基准测试中同时实现了更高的定位质量和更快的解码速度,推动统一视觉定位模型突破传统速度与精度之间的权衡。对于正在快速发展的 GUI Agent、自动标注系统以及下一代多模态智能体而言,这种高效且精准的空间理解能力,正在成为基础设施级别的关键能力。

目前,OpenBayes 官网已上线「 LocateAnything-3B:快速高质量视觉语言定位模型 」教程, 以 Notebook 的形式降低部署门槛。

在线运行链接

go.openbayes.com/gHhhC

Demo 运行

01Demo 运行阶段

1.登录 OpenBayes.com,在「公共教程」页面,搜索并选择「LocateAnything-3B:视觉语言定位模型」教程。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA RTX 5090」以及「PyTorch」镜像,点击「继续执行」。新用户使用下方邀请链接注册,即可获得满 ¥10 赠 ¥10 优惠券,更有机会获得 ¥15 赠金!

小贝总专属邀请链接(直接复制到浏览器打开):

*go.openbayes.com/9S6Dr

4.等待分配资源,当状态变为「运行中」后,点击「打开工作空间」进入 Jupyter Workspace。

02效果演示

1.页面跳转后,点击左侧 README.ipynb 文件,进入后运行文件。

2.待运行完成,即可点击右侧 API 地址跳转至 demo 页面。

教程链接:

go.openbayes.com/gHhhC

相关推荐
周航宇JoeZhou17 小时前
JB3-9-SpringAI(二)
java·ai·agent·多智能体·调度·智能体·观察
冬奇Lab20 小时前
Agent 系列(19):Harness 完整体系——8 层防护框架全景
人工智能·llm·agent
米小虾20 小时前
Claude Fable 5 系统提示词被扒出来了:1586 行代码背后,藏着 AI 产品工程的终极哲学
人工智能·agent
逻极20 小时前
Hermes Agent深度探索:一个会自我沉淀经验的终端智能体
架构·llm·agent·rag·多智能体系统·hermes agent·hermes
OpenAnolis小助手1 天前
如何利用 AI Agent 实现热补丁的自动化生成
人工智能·安全·ai·操作系统·agent·龙蜥
菜鸟‍1 天前
【论文学习】Segment Anything 分割一切
深度学习·学习·计算机视觉
全栈开发圈1 天前
作者有话说|关于目标检测
人工智能·目标检测·计算机视觉
尼斯湖皮皮怪1 天前
iceCoder:验收门控深度分析
前端·agent
江夏尧1 天前
Peri Code: Agent 能力和用户判断力的不对称
agent
宋哥转AI1 天前
@Tool写了但tools/list为空?Spring AI MCP Server注册的两种路径和四个坑
java·agent·mcp