在机器人领域,类人机器人被推倒后自主恢复的场景已较为常见,但由于物体交互远比环境移动复杂,机器人操作任务很难达到相近的稳健性水平。近期,华盛顿大学、微软研究院与 NVIDIA 团队提出 OmniReset 方法,为这一难题提供了新的技术方向,让搭载Robotiq 二指夹爪 (型号2F-85 )的UR协作机器人实现了高稳健性操作。

一、核心突破:系统化重置破解探索难题
该研究的核心见解,是通过更系统的模拟器重置方式,极大简化机器人强化学习中的长距离探索过程。传统复杂操作任务中,机器人需在广阔状态空间中盲目探索有效路径,效率极低,而 OmniReset 仅需研究人员指定任务成功的物体目标位姿,即可自动生成多样化初始状态分布。
这些分布覆盖UR 机械臂与物体交互的各类接触场景(物体近目标、夹爪抓取物体、夹爪近物体、夹爪随机放置),让智能体训练初期就能接触有效路径,无需依赖人工设计学习课程或人工演示,即可自主习得稳定操作策略。
二、技术路径:模拟训练到真机零次迁移
OmniReset 的技术链路清晰高效,完全遵循 "模拟学习 - 视觉蒸馏 - 真机部署" 的逻辑:
-
模拟训练阶段:策略在模拟器状态空间中,基于 PPO 算法在大规模并行环境中完成学习,充分吸收多样化重置场景的经验;
-
视觉蒸馏阶段:对模拟训练后的策略进行大量视觉随机化处理(涵盖纹理、光照、视角变化),最终提取为 RGB 输入形式;
-
真机部署阶段 :蒸馏后的策略直接在真实硬件上实现零次 sim2real 传输 ,无需额外适配调试,成功部署于UR 协作机器人 搭配Robotiq 2F-85二指夹爪的硬件平台。


三、性能展现:稳健适配复杂操作场景
实验测试中,搭载Robotiq二指夹爪(2F-85) 的UR机械臂展现出良好的综合性能:
· 抗扰动能力:面对人为施加的姿态扰动,能快速调整恢复,保持操作连续性;
· 极端条件适配:即使物体处于工作空间边缘等困难初始位置,仍能稳定完成任务,成功率高于传统基线方法;
· 技能自主涌现:无需任务特定先验,自主发现翻转、调整等非抓取类技能,并将其 "缝合" 为 "避障→翻转→推入→插入" 等连贯长序列行为;
· 多任务适配:在拧入桌腿、抽屉插入、立方体堆叠等六项接触式操作任务中,均保持稳定表现。

四、未来展望
OmniReset 的成功验证了 "系统化重置 + 大规模计算" 简化复杂操作探索的可行性,为机器人无演示自主学习提供了可行技术路线。目前,研究团队正持续推进该方法在更复杂抓取任务上的拓展,进一步挖掘UR 协作机器人 与Robotiq夹爪在无人化、高柔性生产场景中的应用潜力,为工业自动化、物流分拣等领域的柔性操作升级奠定基础。

Robotiq 近日也全新推出TSF-85触觉传感器指尖 ,可以原生集成在2F-85二指夹爪上,赋予夹爪触觉感知能力,为研究复现与具身智能训练提供了更多路径和创新可能。
本文内容基于 ++weirdlabuw.github.io++ 技术博客及相关实验数据,客观转述研究成果。
欢迎关注 "欣佰特科技 " ,持续为大家带来 "具身智能领域 "前沿技术及应用!详情可邮件咨询sales@cnbestec.com