OK-Robot机器人实现零样本算法 可在非结构化环境下完成拾取与放置任务

纽约大学的机器人专家团队与Meta人工智能学院研发人员共同合作开发了一种新型机器人,该机器人具备在非结构化环境下的认知能力,可在陌生房间利用视觉语言模型(VLMs),进行物品的抓取与放置。在论文当中,该团队详细阐述了机器人的编程过程以及其在多个实际环境中的测试表现。

研究人员指出,视觉语言模型(VLMs)在过去几年中取得了很快的进步,在根据语言提示识别物体方面已经非常出色。此外团队成员也提到目前机器人夹具控制技术也在进步,机器人可以轻松的将物体拾起,即便是易碎或柔软材料,也不会将其弄坏。但基于VLMs与机器人结合的相关应用依旧处于待探索阶段。

该项研究当中,科学家们尝试运用Hello Robot公司所售的一款机器人来完成这一测试。该机器人具备轮子、杆子以及可伸缩手臂,手部设有夹具。研究团队为其配备了先前经过训练的视觉语言模型(VLMs),并将其命名为OK-Robot。

在实际落地测试方面,研究团队将OK-Robot分别带入10 个志愿者家中,用iPhone对室内场景进行扫描,使用LangSam和CLIP进行计算,并存储在语义内存中。之后给定一个必须选择的对象的语言查询,查询的语言表示与语义记忆相匹配。随后,导航和拾取基元将按顺序分步执行,移动到所需夹取的物品前进行拾取,之后在需要放置的位置,将物品放置。实际测试过程当中,OK-Robot顺利将架子上粉色的瓶子放置在垃圾桶当中。

OK-Robot共执行了多达170项抓取与放置测试,任务成功率为58%。然而这种成功率很大一部分受环境因素影响,比如物品太大,物品呈现半透明状态,以及物品太滑难以夹取等方面,研究团队重新整理空间之后,成功率提升至82%。

研究团队指出,OK-Robot所搭载的系统是零样本算法,这意味着OK-Robot没有在工作环境中接受过训练,因此所取得这样的成绩,证明搭载VLMs功能的机器人是可行的。

相关推荐
ElfBoard16 分钟前
ElfBoard技术贴|如何在【RK3588】ELF 2开发板上进行UART引脚复用配置
人工智能·单片机·嵌入式硬件·物联网
星释42 分钟前
Rust 练习册 22:映射函数与泛型的威力
开发语言·rust·机器人
paperxie_xiexuo43 分钟前
七款 AI PPT 工具新解:智能驱动演示升级,解锁多元创作场景
大数据·人工智能·powerpoint·大学生·ppt
大模型实验室Lab4AI1 小时前
VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉
人工智能·计算机视觉·音视频
还不秃顶的计科生1 小时前
如何快速用cmd知道某个文件夹下的子文件以及子文件夹的这个目录分支具体的分支结构
人工智能
九河云1 小时前
不同级别华为云代理商的增值服务内容与质量差异分析
大数据·服务器·人工智能·科技·华为云
Elastic 中国社区官方博客2 小时前
Elasticsearch:Microsoft Azure AI Foundry Agent Service 中用于提供可靠信息和编排的上下文引擎
大数据·人工智能·elasticsearch·microsoft·搜索引擎·全文检索·azure
大模型真好玩2 小时前
Gemini3.0深度解析,它在重新定义智能,会是前端工程师噩梦吗?
人工智能·agent·deepseek
机器之心2 小时前
AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
人工智能·openai
AAA修煤气灶刘哥2 小时前
从Coze、Dify到Y-Agent Studio:我的Agent开发体验大升级
人工智能·低代码·agent