【AI学习】[2024北京智源大会]具身智能:面向通用机器人的具身多模态大模型系统

面向通用机器人的具身多模态大模型系统

王 鹤 | 北京大学助理教授,智源学者

边听边做一些记录

一、通用机器人的概念和发展趋势,以及实现通用机器人的基石层、大脑和小脑模型等方面的思考和探索。

主要观点:人形机器人,是未来发展的终局

人形,是能找到最大公约数,但是不等于都是人性,专业机器人有其他形态,但是,通用机器人应该是人形

直立时,手只能到这,摸不到脚,腿的重要性!

腿的作用:环境通用,另外一个作用,是辅助手,到达手到达不了的地方

今天做本体,机器人的腿还达不到人的程度,需要采用渐进式的发展方式

今天所有的人形机器人,给它一个地面的点,让它泛化的弯腰去捞这个点,这个人形机器人不摔,这在世界范围内没有实现

从本体层,需要思考,当下设计本体层,在非拥挤场景下达到人的灵活度和操作空间

通用机器人的未来还是属于腿,轮的方式还是有限制,什么时候腿可以弯曲,做各种动作不倒,是具身智能的一大挑战,希望未来五年可以发展出来

全身控制能力受腿技能不足和成本挑战,需务实考虑

二、人形机器人的发展现状和挑战,探讨了本体层和数据层的考虑因素,提出了合成数据是实现具身智能的关键。

数据:采集成本高昂,特斯拉靠人力采集自动驾驶数据,但未来需依赖机器人操作

数据:谷歌的RT系列的demo,和特斯拉的demo,都是来自人类的遥操作

把电池放到盒子里,特斯拉的采集,公开数据,有40人的团队进行遥操作,这个遥操作是一个排列组合的问题,考虑泛化,每一个技能都需要采集大量的数据,特斯拉的方案是几百万到上千万美元

谷歌是17个月,采集了13万条数据

特斯拉和谷歌,都依赖人力,这里有路径依赖

特斯拉靠人力采集,把自动驾驶作成了,这后面是100万量上亿小时的数据

但是,人形机器人,从0开始,这个数据很难突破

所以,综合考量,合成数据是从零到一转化的一个可能方式

三、一种基于合成数据的抓取技能训练方法

该方法能够实现对各种物体的稳定抓取,具有很高的自由度和泛化性。通过合成数据来回答scaling law问题,以及使用seem to real技术抓取关节类物体和操纵全身机器人的能力,并探讨了多模态大模型在开放语义抓取放置任务中的应用。

3D数据的适应性优势:

距离感知比二维数据有更多信息,可提高样本效率

对比2D数据有10000倍的采样效率

合成数据可实现泛化,提高技能稳定性

灵巧手随意抓取的demo,还没有看到,自由度有23个,但是训练难度也越大。从洗盘到二指到灵巧收,自由度越来越高,训练难度越来越大

具身智能数据可用于灵巧手抓取学习,做了试验,需要5亿以上数据进行训练,成功率达到85.8

灵巧手需要的数据太多,因为任务是无穷无尽。

所以什么时候涌现?还是路漫漫!

四、小脑之上的大脑,如何互动的问题

Google RT-2方案,VLA大模型,言出法随,实现了语言和动作一个模型输出,是大小脑一体模型,比较大一统,只做了55B的模型,但速度较慢

提出一个三层级的大模型,保证快速和泛化


Open6DOR ,提供训练集和 baseline,做到能抓也能放

CVPR的论文!进行跨类别的操作零部件的分割和识别

一个机器人系统,该系统使用了GP4V和大小模型的耦合来完成各种任务,包括抓取、放置、导航等。该系统的愿景是构建一个通用机器人系统。

描述水豚玩具的抓取和放置技能。

GP4V可以识别零部件并调用技能模型完成任务。

五、未来,还是端到端具身大模型

感知、规划、控制......再到端到端

大模型的魅力在于不需要深度图或点云,只需要视觉观察就能完成任务

最终,会有大脑大模型、小脑大模型一起把本体穿起来,形成本体技能。

最后,展示机器人的规划和操作能力,包括抓取、清理和泛化性操作。

视频链接:https://www.bilibili.com/video/BV1Zx4y147os/?spm_id_from=333.1007.tianma.2-3-6.click\&vd_source=986224b0c4e79ec28556778dc7d42405

备注:最近读了文章《用苹果Vision Pro隔空操控机器人,英伟达:「人机合一」也不难嘛》(链接:https://mp.weixin.qq.com/s/jqkSDodUec4DMsV5U3rDoA),展示的数据思路:人类在真实机器人身上收集演示数据,而英伟达在仿真中将这些数据扩展千倍及以上

相关推荐
井底哇哇22 分钟前
ChatGPT是强人工智能吗?
人工智能·chatgpt
Coovally AI模型快速验证26 分钟前
MMYOLO:打破单一模式限制,多模态目标检测的革命性突破!
人工智能·算法·yolo·目标检测·机器学习·计算机视觉·目标跟踪
AI浩1 小时前
【面试总结】FFN(前馈神经网络)在Transformer模型中先升维再降维的原因
人工智能·深度学习·计算机视觉·transformer
可为测控1 小时前
图像处理基础(4):高斯滤波器详解
人工智能·算法·计算机视觉
一水鉴天2 小时前
为AI聊天工具添加一个知识系统 之63 详细设计 之4:AI操作系统 之2 智能合约
开发语言·人工智能·python
倔强的石头1062 小时前
解锁辅助驾驶新境界:基于昇腾 AI 异构计算架构 CANN 的应用探秘
人工智能·架构
佛州小李哥2 小时前
Agent群舞,在亚马逊云科技搭建数字营销多代理(Multi-Agent)(下篇)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
说私域3 小时前
社群裂变+2+1链动新纪元:S2B2C小程序如何重塑企业客户管理版图?
大数据·人工智能·小程序·开源
程序猿阿伟3 小时前
《探秘鸿蒙Next:如何保障AI模型轻量化后多设备协同功能一致》
人工智能·华为·harmonyos
2401_897579653 小时前
AI赋能Flutter开发:ScriptEcho助你高效构建跨端应用
前端·人工智能·flutter