UniBYD:超越人类示教模仿的跨实体机器人操作学习统一框架

在嵌入式智能领域,从人类演示中学习机器人操作是主流范式,但人类手部与不同形态机器人手(如2指、3指、5指)之间的形态差异鸿沟,成为技术落地的核心障碍:

基于动作重定向的方法仅映射运动学姿态,忽略动态信息;

传统模仿学习局限于复制人类动作,因手指数量、自由度等物理差异,任务性能远低于人类水平;

现有强化学习方法存在两难:要么依赖人类轨迹导致策略无法适配机器人自身形态,要么完全脱离人类先验陷入局部最优;

缺乏统一框架,多数方法仅针对特定机器人手设计,无法泛化到多样化形态。

UniBYD核心目标是构建一种学习范式:突破单纯的人类动作模仿,让机器人自主发现与自身物理特性匹配的操作策略,实现跨形态机器人手的高效泛化。

核心创新:UniBYD框架设计

UniBYD是一套统一的强化学习框架,通过统一形态表示、动态强化学习机制、精细模仿引导三大核心组件,实现从模仿到探索的平滑过渡,最终学到适配机器人形态的操作策略(figure2)。

图片

统一形态表示(UMR):跨形态建模的基础

为解决不同机器人手形态(自由度、手指数量、刚体数量)的建模差异,UMR将动态状态与静态属性统一为固定维度表示:

动态状态处理:手腕状态固定为13维(位置、姿态、速度);关节状态(角度、速度)通过零填充至最大自由度,并对关节角度进行三角函数编码(、)避免环绕问题,得到填充后的关节状态:

静态属性补充:从URDF模型提取手指数量、自由度、刚体数量,构成静态描述符;

最终观测向量:拼接手腕状态、填充后关节状态与静态描述符,即,让政策网络能处理任意形态的机器人手。

动态PPO:从模仿到探索的渐进式学习

基于UMR提供的统一观测空间,动态PPO通过奖励退火机制和损失协同平衡,实现从模仿人类到自主探索的平滑过渡。

(1)奖励退火机制:动态调整模仿与探索权重

设计两类核心奖励,并通过权重动态变化引导学习阶段过渡:

模仿奖励():稠密奖励,量化当前状态与人类演示状态的相似度,涵盖手腕姿态、指尖位置、关节运动、物体状态等多维度差异,同时加入动作能耗惩罚:

目标奖励():稀疏奖励,仅当任务成功完成时给予固定奖励,引导策略关注任务目标而非单纯模仿:

动态权重调整:总奖励为两类奖励的加权和,权重随训练进程、模仿质量(滑动窗口平均模仿奖励)和成功率()动态变化:

权重变化分为三阶段:

早期模仿阶段(或):,完全依赖模仿奖励;

混合阶段:,模仿权重随成功率衰减,逐步转向目标奖励;

探索阶段():(极小值),策略完全以任务成功为导向自主探索。

(2)损失协同平衡:保证探索有效性与物理可行性

为避免过早收敛和动作超出物理范围,在PPO目标中加入两类损失:

熵正则化:鼓励策略探索,系数随训练线性衰减,早期探索充分,后期逐步收敛:

边界损失:通过可微软边界惩罚,避免动作均值超出物理范围,解决硬裁剪破坏梯度的问题:

最终PPO目标函数:

熵正则化与边界损失形成协同:前者促进探索,后者约束探索在物理可行范围内。

混合马尔可夫影子引擎:早期模仿的精细引导

早期训练中,政策网络较弱,微小动作偏差会累积导致任务失败,影子引擎通过动作混合和对象辅助控制解决这一问题(figure3):

图片

(1)灵巧手控制:混合政策与专家动作

执行动作并非单纯的政策预测,而是政策动作与人类专家动作的加权混合,权重随训练epoch线性调整:

早期():完全依赖专家动作,政策学习单步操作,避免误差累积;

中期(衰减):逐步增加政策动作权重,让政策在专家引导下学习状态转移逻辑;

后期():完全依赖政策动作,过渡到纯马尔可夫决策过程。

(2)对象控制:PD控制器辅助稳定

通过PD控制器对操作对象施加动态支撑力,约束对象沿专家轨迹运动,避免掉落或大幅偏离,支撑力增益随训练同步衰减:

实验设计与核心结果

为全面验证框架性能,设计了UniManip基准和多维度实验,涵盖模拟与真实世界场景。

  1. UniManip基准:首个跨形态机器人操作基准
    任务覆盖:29类单/双手操作任务,适配2指、3指、5指机器人手(5指支持双手任务,2/3指仅单任务);
    评价指标:
    成功率(SR):所有时间步满足位置误差≤3cm、姿态误差≤30°的任务占比;
    位置误差(PE)/姿态误差(OE):成功任务中对象状态与目标的平均偏差;
    适配分数(AS):专家评分(0-10),评估策略与机器人形态的适配性和操作质量。
  2. 对比实验:超越现有SOTA
    对比基于逆运动学的重定向方法、ManipTrans(当前SOTA)、DexMachina*(复现版本),结果显示(table1):

图片

跨形态泛化:唯一在所有手形态(2指、3指、5指单/双手)上均实现高成功率的框架;

成功率提升:整体比ManipTrans高67.9%,5指单任务从29.75%提升至87.47%,5指双手任务达到78.07%(其他方法均失败);

操作精度:PE和OE分别降低81.65%和58.77%,AS达到8.83(远超ManipTrans的6.69)。

可视化结果(figure4)显示:ManipTrans机械复制人类三指抓握马克杯的动作,因机器人手指过宽导致滑落;而UniBYD适配机器人形态,采用两指穿柄+小指支撑的策略,成功完成任务。

  1. 消融实验:组件有效性验证
    通过逐步添加核心组件(影子引擎SE、目标奖励GR、损失协同平衡LSC),验证各模块贡献(table2):

基础模型(仅模仿奖励):SR较低,无法适配形态;

+SE:SR提升10.33%,解决早期训练稳定性问题;

+SE+GR:SR再提升20.14%,AS达7.80,目标奖励有效引导形态适配策略探索;

+SE+GR+LSC:性能最优,避免过早收敛,发现更优策略。

训练过程可视化(figure5)显示:基础模型快速陷入局部最优,而UniBYD通过组件协同,后期成功率持续上升并稳定在高值;策略进化过程(figure7)显示,训练从单纯模仿逐步过渡到适配机器人形态的自主探索,最终形成高效操作策略。

图片

  1. 真实世界迁移:从模拟到实物的有效性
    在X-Arm 2指、Casia Hand-G 3指、OHandT M 5指机器人上验证,任务成功率分别达到52%(26/50)、64%(32/50)、70%(35/50)。figure8显示,UniBYD针对不同手形态调整策略:2指斜向夹紧烧杯,3指环绕包裹烧杯,充分适配硬件特性。

核心结论与意义

范式突破:跳出"复制人类动作"的局限,提出"形态适配策略"学习范式,通过动态强化学习实现从模仿到探索的平滑过渡;

泛化能力:UMR统一了不同形态机器人手的表示,使框架能直接适配2指、3指、5指单/双手,解决了跨形态泛化的核心难题;

性能与实用性:在UniManip基准上大幅超越SOTA,且成功迁移至真实世界机器人,为多样化机器人操作任务提供了通用解决方案;

基准价值:UniManip作为首个跨形态操作基准,填补了现有评估体系的空白,为该领域研究提供了统一的对比标准。

参考

1UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations

相关推荐
承渊政道1 分钟前
【MySQL数据库学习】(MySQL复合查询)
数据库·学习·mysql·bash·database·数据库开发·数据库架构
牛油果子哥q1 分钟前
哈希表经典刷题模型与布隆过滤器精讲,哈希查重、哈希计数、双哈希映射、误判原理与工业级落地应用
数据结构·算法·哈希算法·散列表
ruxshui1 分钟前
排序算法及不同场景应用总结
算法·排序算法
云和数据.ChenGuang2 分钟前
metrics的解释 人工智能
人工智能·深度学习·学习·机器学习·概率论
fanged5 分钟前
Linux_Driver_Tutorial(1)(TODO)
学习
ZacMa6 分钟前
kuka机器人时间同步
机器人
星恒随风9 分钟前
C++ string 入门(一)
开发语言·c++·笔记·学习
旖-旎9 分钟前
《LeetCode 200 FloodFill 岛屿数量DFS解法》
c++·算法·深度优先·力扣·floodfill
jinxindeep10 分钟前
ω-EVA:基于隐变量交互式世界模型的机器人动作生成新范式(星源智)
人工智能·机器人
拂拉氏12 分钟前
【知识讲解-题目讲解】算法系列之动态规划入门(下)
算法·leetcode·动态规划