Sunday的ACT-1分享!未使用任何机器人本体数据训练的VLA,解决超长时程任务

对于具身智能的场景而言,家居环境我认为是终局目标,那么在这个路线上的 sunday 展示了很不错的进展,demo 展示了超级长程的居家任务,其中赵子豪(Tony Zhao)和迟宬(Cheng Chi)两位创始人,也是 ALOHA 、UMI 、ACT、Diffusion Policy 这些工作的作者。

零机器人数据待指无机器人本体数据,一般 UMI 采集 eepose,需要 IK 解算机器人关节角,转换成机器人可以使用的数据(replay),sunday 目前看来是探索出了一条有效转换的道路,并且这种数据转换成功率但能够到达 90%。

在国内的研究团队,好像并没有出现 UMI 来进行 demo 展示,还是有必要学习下类似 UMI 这种数据采集方式。

ACT-1 不同于之前的 ACT,由于 memo(也就是图中的机器人)可以进行语音模态输入,归为 VLA 系列。同时这是第一个展示的超长程家具的 UMI demo(也就对应于零机器人数据),因此值的学习一下。

原文链接:Sunday的ACT-1分享!未使用任何机器人本体数据训练的VLA,解决超长时程任务

blog 链接

https://www.sunday.ai/journal/no-robot-data

https://www.sunday.ai/technology#skills

ACT-1 展示了机器人人工智能的重大变革:解决超长时程任务,将房间规模的移动操作推广到新环境,并推进灵巧性前沿,所有这些都无需任何远程操作数据轨迹。

更多内容也欢迎加入国内首个具身智能社区做进一步交流~

如何解决数据问题

作为一家全栈公司,sunday能够精准识别整个系统中的瓶颈,系统的整体性能往往受限于最薄弱的环节。尽管机器人行业一直在争论这个薄弱环节究竟是硬件、算力还是资金,但sunday认为只有一个明确的答案:数据。大语言模型(LLM)之所以能蓬勃发展,是因为它们吸收了整个互联网的知识;然而,机器人领域还没有与之对等的资源------即缺乏互联网规模的真实世界操作数据语料库。

该如何弥合这一差距?

行业标准的做法是"远程操作"(Teleoperation):由人类远程控制机器人并对其进行教学。虽然这对于演示很有帮助,但它制造了一个规模化扩展的"死锁":缺乏智能,机器人就无法大规模部署;而没有大规模部署产生的数据,就无法构建真正的智能 。像特斯拉这样的公司受益于每天有数百万辆汽车在收集数据,但即便如此,他们也花了十年的时间才积累出足以产生质变的数据量

对机器人行业而言,现实非常残酷:除非能发明一种比远程操作效率高出数个数量级的方法,否则为通用机器人收集数据将耗时数十年,实在太慢了。

要解决数据问题,必须先解决"具身失配(Embodiment Mismatch)"问题。如果能让机器人的形态与人体保持一致,那么从人类身上获取的任何数据都可以直接转化为机器人的训练素材。地球上有 80 亿人口;利用人类的日常活动数据,将能够引导智能的生成,打破数据死锁,从而开启机器人的大规模部署时代。

sunday 截至 2025 年底,该库已积累了约 1000 万个示例。全美有 2000 台数据采集手在进行采集数据。

然而,利用这些数据极其困难。经过数百万年的进化,人类双手所具备的灵活性是极难复制的。虽然有些机器人手在外观上模仿人类,但尚未有任何产品能实现真正的"功能对等(Functional Parity)"。如果机器人的手无法与人手匹配,数据就无法实现有效的迁移

Sunday通过打造机械设计的"黄金平衡点(Sweet Spot)"来弥合这一差距。在硬件设计之初,就力求在人类的人机工程学需求与机器人的制造现实之间取得平衡,同时针对灵巧手最关键的几个方面进行了激进的优化**:扩大手部可抓取的物体范围、实现可靠的工具使用能力(如喷雾器、电钻),以及兼容手柄和绳索等日常物品。(这些设计是非常重要的,像之前的 aloha 平行式夹爪就限制了大很多任务,同时做部分任务的难度也会提高)。**

其成果便是"技能采集手套(Skill Capture Glove)",它是这种融合理念的化身。通过确保手套与机器人手具有完全相同的几何结构和传感器布局彻底消除了数据转换过程中的断层只要人类戴着手套能做到的动作,机器人也同样能做到。

虽然技能采集手套解决了手部接口的对齐问题 ,但身体其余部分的"具身"特征依然存在变量人类的身高和臂长各不相同,且物理外观上的差异造成了显著的"视觉领域鸿沟(Visual Domain Gap)"------摄像头捕捉到的是人类的手臂 ,而机器人需要学习的却是机器人的手臂。

为了弥合这些差异,sunday开发了"技能转换系统(Skill Transform)" 。它能够对齐包括运动学和视觉在内的原始观测数据 ,从而消除人类特有的特征细 节。这一过程极具鲁棒性:我们将手套数据转换为等效机器人数据的成功率高达 90%(不是所有采集的数据都可以使用)最终生成的是一套高保真训练集 ,其视觉呈现和运动轨迹看起来完全就像是由机器人自身产生的一样

sunday花了超过一年的时间来构建这套核心基础设施------包括技能采集手套、技能转换系统以及我们的机器人 Memo 。目前已经训练出了首个基础模型 ACT-1(第一幕),正以惊人的速度全速推进。以下仅是在过去90 天内,sunday 所取得的成就。

demo1:超长时序移动操作 (Ultra Long-Horizon Mobile Manipulation)

视频展示了:

  1. 超长时序移动操作 (Ultra Long-Horizon Mobile Manipulation)
  2. 这样手部设计可以支持掌内操作(如一只手抓握两个刀叉);
  3. 具备室内导航能力;
  4. 长程任务推理,可以兼容不同的交互操作;
  5. 针对 21 种不同物体的 33 种独特操作,共计 68 次灵巧交互。总移动距离超过 130 英尺(约 40 米);
  6. 手掌力度感应可以握两个玻璃杯不碎;

demo2:对陌生家庭环境的零样本泛化能力 (Zero-Shot Generalization to Unseen Homes)

ACT-1 无需任何针对特定环境的训练,即可泛化到全新的家庭环境中。为了展示这一能力,将 ACT-1 部署在了一系列 Airbnb 房源中,委派其执行清理餐桌并将餐具装入洗碗机的任务。在这些地点,模型成功实现了绕桌导航、抓取餐具,并将盘子运送至洗碗机。

由于这些新地点的户型布局是 ACT-1 在训练期间从未见过的,因此模型在"开箱即用"的状态下并不知道洗碗机或餐桌的具体位置。为了赋予模型在陌生家庭中导航的能力,在训练过程中引入了环境的 3D 地图作为输入约束(Conditioning)。通过让模型接触大量且多样化的家庭布局数据集,它学会了如何"解读"这些地图,而不是死记硬背特定的房屋结构。

这部分很关键,对于扫地机器人,一般进家也是先建图,如果对于家庭用户,首次开机,我觉得也应该获取家庭的环境地图作为输入。

因此,当被置于一个全新的房屋中时,ACT-1 能够利用给定的 3D 地图导航至关键位置。ACT-1 是首个在单一端到端模型中,将长时序操作(Long-horizon manipulation)与地图引导导航(Map-conditioned navigation)相结合的基础模型

demo3:探索灵巧性的新前沿 (Advancing the Frontier of Dexterity)

这里展示了两项突破:叠袜子和制作浓缩咖啡。

我们已经见过许多能够折叠大件衣物的机器人,Sunday挑战了叠袜子这一难题。这项任务要求 ACT-1 从杂乱的堆中识别并提取成对的袜子,将它们卷成球状,最后放入篮子。一个成功的动作序列需要将细腻精准的捏取与高强度的拉伸动作相结合,并利用智能的多指运动将袜子翻折成球,同时还要应对袜子在过程中产生的无数种变形和自遮挡情况。

sunday还训练了 ACT-1 操作标准的家用浓缩咖啡机。动作序列始于拿起咖啡手柄并执行"空中压粉"------这一动作需要毫米级的精度和出色的双手协调能力。随后,ACT-1 利用 Memo 的全身力量将手柄插入咖啡机,并产生锁紧手柄所需的高扭矩,最后按下启动按钮。

捕捉生活的"长尾"场景 (Capturing the Long Tail of Living)

ACT-1 的泛化能力建立在真实家庭生活的复杂现实之上。我们经常被新发现的情况所震惊------从钻进洗碗机的猫到桌上成桶的李子。技能采集手套(Skill Capture Gloves)是采集人类真实生活状态下"真实分布数据"最快、最有效的方法。

其实这样说也不太准确,准确的说是技能采集手套可以采集更真实的人类交互数据,训练的 IL 方式也是复制了这样的行为,但是弊端也足够明显,如长尾数据质量不佳不足,也会模仿到粗略的行为。 IL 也是有利有弊,好处是没人会采集持刀伤人的数据,这样机器人也就无法模仿这种行为,坏处就是可能磨洋工、人类的执行速度可能比较慢等等。

Sunday 给出了一种机器人技术面临的根本性数据瓶颈的解决方案。数据采集不仅仅是操作层面的问题------我们开发了一种创新解决方案,通过全栈式方法,效率提升了几个数量级 :从数据采集手套(机械工程、电子工程)和技能转换(软件、机器学习)到数据处理和模型训练

MEMO 硬件设计细节

由于是升降设计最高可达 2.1m(这样设计可以兼容不同身高的采集员,还可以覆盖高处物品的 pick&place)

手是 4 自由度的三指 UMI,臂是 7 自由度。

执行速度有一个细节:Memory Developer 在执行任务时,演示速度约为人类自然速度的一半 ,而sunday的团队运行模型的速度约为数据速度的 60-80%

相当于示教数据就是放慢的人类速度,模型推理的时候会学到一个平均速度。充电 1 小时,可以执行 4 个小时。采用刚性和弹性聚合物混合材料,兼顾坚固性和安全性。软质外层部分有多种颜色可供选择。

安全与保障

硬件安全

Memo 设计为具备柔顺性(Compliant)且符合被动安全标准。如果你不小心撞到它,它会自然地顺势避让

柔顺控制 (Compliant Control)

在机器人技术中,柔顺控制是指允许机器人针对外力有意识地产生退让、弯曲或调整其运动轨迹的控制策略,而不是表现得像一台僵硬、无法阻挡的机器。

**被动稳定性 (Passive Stability),统依靠其机械设计即可自然稳定地保持平衡(例如不会翻倒),且不需要持续的动力驱动来维持该姿态。**即便在任何姿态下突然断电,它也能保持姿态稳定,不会因失去动力而造成危险。

人形机器人很难保持站立,一般都需要吊架,断电就会直接摔倒,我感觉短期来看底盘 + 升降的双臂机器人应该会是主流,并且可以覆盖电梯房 + 无障碍通道的场景

软件安全

Memo 内置了针对静态和动态障碍物的自动避障功能。它只执行明确教授过的任务也就是那些实用且安全的任务。机器人的每一种行为逻辑都受到严格的数据审查机制约束。

类似于自动驾驶 L4 的冗余模块了,相当于这个轨迹会进行碰撞判断。

数据安全

凭借"技能采集手套(Skill Capture Glove)"和"记忆开发团队(Memory Developers)",无需依赖用户 家庭中的私密数据来训练 Memo。如果用户 选择分享有关 Memo 行为的反馈,所有数据的获取都必须经过用户明确授权

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

相关推荐
阿基米东4 小时前
基于 C++ 的机器人软件框架(具身智能)开源通信库选型分析
c++·机器人·开源
辰尘_星启6 小时前
[最优控制]MPC模型预测控制
线性代数·机器学习·机器人·概率论·控制·现代控制
啵啵鱼爱吃小猫咪7 小时前
机器人工具箱Matlab Robotics Toolbox:下载、安装及使用指南
开发语言·matlab·机器人
林深现海10 小时前
二、如何在 ROS 2 仿真中实现四足机器人的 VLA(视觉-语言-动作)控制链路
linux·vscode·yolo·ubuntu·机器人
星辰亦晓10 小时前
px4+ubuntu22.04+ros2开发记录
机器人·无人机
会员源码网11 小时前
小狐狸AI智能机器人2.7.6免授权版源码 – ChatGPT聊天机器人系统
人工智能·chatgpt·机器人
码农三叔11 小时前
(6-2)手部、足部与末端执行器设计:足部结构
人工智能·架构·机器人·人形机器人
Q_219327645511 小时前
智能巡线机器人设计
机器人
high201112 小时前
Clawdbot 深度介绍与上手实践
机器人