论文笔记(一百零八)Simulation-based pipeline tailors training data for dexterous robots

Simulation-based pipeline tailors training data for dexterous robots

  • 文章概括
  • [Addition by multiplication 通过"乘法式"的扩增来实现"加法式"的提升](#Addition by multiplication 通过“乘法式”的扩增来实现“加法式”的提升)
  • [The future of PhysicsGen PhysicsGen 的未来前景](#The future of PhysicsGen PhysicsGen 的未来前景)

文章概括

引用:

bash 复制代码
@article{
}
markup 复制代码

主页:
原文:
代码、数据和视频:

系列文章:

请在 《 《 《文章 》 》 》 专栏中查找


宇宙声明!

引用解析部分属于自我理解补充,如有错误可以评论讨论然后改正!


由麻省理工学院(MIT)的研究人员开发的PhysicsGen系统,通过根据具体机器"量身定制"训练数据,帮助机器人在家庭和工厂中更好地处理各种物品。

当 ChatGPT 或 Gemini 对你迫切想知道的问题给出看起来非常专业的回答时,你可能没有意识到,它在生成这个回复时依赖了多么庞大的信息量。 和其他流行的生成式人工智能(AI)模型一样,这些聊天机器人依赖一种称为"基础模型"(foundation models)的骨干系统,这些模型在数十亿、甚至数万亿个数据点上进行训练。

类似地,工程师们也希望构建基础模型,用来训练各种机器人在家庭和工厂等场景中掌握拾取、移动、放置物体等新技能。 问题在于,很难在不同的机器人系统之间采集和迁移用于教学的指令数据。 你可以通过虚拟现实(VR)等技术,逐步远程操控机器人硬件来教它做事,但这种方式会非常耗时。 使用网络视频进行训练的教学性又不够强,因为这些视频片段并不会针对某一具体机器人提供逐步的、专门化的任务示范。

麻省理工学院计算机科学与人工智能实验室(CSAIL)及机器人与人工智能研究院提出了一种名为"PhysicsGen"的仿真驱动方法,可以为机器人定制训练数据,帮助它们为某项任务找到最高效的运动方式。 该系统可以把几十段 VR 示范扩增为每台机器近 3,000 个仿真样本。 随后,这些高质量的指令会被映射到具体的机械结构配置上,例如机械臂和机械手。

PhysicsGen 通过一个三步流程生成既能泛化又能适配具体机器人的数据。 首先,VR 头显会追踪人类如何用双手操作诸如积木一类的物体。 与此同时,这些交互会被映射到一个三维物理模拟器中,把我们手部的关键点可视化为一些小球,用来反映我们的手势动作。 比如,当你把一个玩具翻转过来时,你会看到代表你手部不同部分的三维形状,正在带动该物体的虚拟版本一起旋转。

接着,这条处理流水线会把这些关键点重新映射到某个特定机器(如机械臂)的三维模型上,将它们移动到系统发生扭转和转动的精确"关节"位置。 最后,PhysicsGen 使用轨迹优化------本质上是在仿真中寻找完成任务的最高效运动方式------从而让机器人知道,像重新摆放一个箱子这类操作,应该如何以最佳方式来完成。

每一个仿真都是一个详细的训练数据点,循序渐进地向机器人展示可能的物体操作方式。 当这些数据被实现为策略(也就是机器人要遵循的行动计划)时,机器人就拥有多种完成任务的方式,如果一种动作行不通,它可以尝试其他动作。

"我们正在为特定机器人生成数据,而不再需要人类为每一台机器重新录制专门的示范。"该项目介绍论文的第一作者、MIT 电气工程与计算机科学专业博士生、CSAIL 成员杨路杰(Lujie Yang)说道。 "我们以一种自主、高效的方式扩展数据规模,使这些任务指令可以对更广泛的机器产生作用。"

为机器人生成如此多的教学轨迹,最终有望帮助工程师构建一个庞大的数据集,用来指导机械臂和灵巧机械手等设备的行为。 例如,这条流水线可以帮助两台机械臂协同工作,从仓库中拾取物品,并将它们放入正确的配送箱中。 该系统也可以在家庭场景中,引导两台机器人协作完成诸如收拾杯子之类的任务。

PhysicsGen 的潜力还体现在,它可以把为旧型号机器人或不同环境采集的数据,转化为对新机器同样有用的指令。 "即使这些数据集最初是为某一特定类型机器人收集的,我们仍然可以把它们'激活'起来,让它们具有更普遍的用途。"杨补充道。

Addition by multiplication 通过"乘法式"的扩增来实现"加法式"的提升

PhysicsGen 仅用 24 段人类示范,就生成了成千上万条仿真示范数据,帮助虚拟机器人和现实世界中的机器人重新调整物体姿态。

Yang 及其同事首先在一次虚拟实验中测试了这条流水线:一只"悬浮"的机械手需要将一个方块旋转到指定目标姿态。 通过在 PhysicsGen 生成的大规模数据集上进行训练,这个虚拟机器人完成任务时达到了 81% 的准确率,比仅仅依赖人类示范训练的基线方法提升了 60%。

研究人员还发现,PhysicsGen 能够改进虚拟机械臂在协作操控物体时的表现。 该系统生成的额外训练数据,使得两对机器人完成任务的成功率最高比仅由人类示范教学的基线方法提升了 30%。

在一项使用一对真实机械臂的实验中,当机器人协作将一个大箱子翻转到指定位置时,研究人员观察到了类似的性能提升。 当机器人偏离预定轨迹或错误操作物体时,它们可以在任务执行过程中通过查阅指令数据库中的其他轨迹来完成纠正与恢复。

论文资深作者 Russ Tedrake(MIT 丰田讲席教授,所属领域为电气工程与计算机科学、航空航天以及机械工程)补充说,这种模仿引导的数据生成技术,把人类示范的优势与机器人运动规划算法的力量结合了起来。

"即便只有一次人类示范,也能让运动规划问题变得容易得多。"Tedrake 说道。他同时担任丰田研究院大型行为模型部门的高级副总裁,并且是 CSAIL 的首席研究员。 "未来,也许基础模型本身就可以提供这类信息,而这种数据生成技术则可以作为对基础模型进行'后处理训练'的一种配方。"

The future of PhysicsGen PhysicsGen 的未来前景

很快,PhysicsGen 或将被拓展到一个新的前沿方向:让机器能够执行的任务类型更加多样化。

"例如,我们希望用 PhysicsGen 来教一台只受过'收拾餐具'训练的机器人学会'倒水'。"Yang 说道。 "我们的流水线不仅仅是为熟悉的任务生成在动力学上可行的动作,它还有潜力构建出一个多样化的物理交互库------我们认为,这些交互可以作为'积木',用来拼接出人类从未亲自示范过的全新任务。"

生成大量具有广泛适用性的训练数据,最终可能有助于为机器人构建一个基础模型,不过 MIT 的研究人员也提醒,这仍然是一个相对遥远的目标。 由 CSAIL 牵头的团队正在研究:PhysicsGen 如何利用海量的、非结构化的资源------例如网络视频------作为仿真的"种子"。 目标在于:把日常生活中的视觉内容转化为丰富的、可直接供机器人使用的数据,让机器学会完成那些从未被明确示范过的任务。

Yang 及其同事还希望在未来让 PhysicsGen 对更多形态各异、结构多样的机器人变得更加实用。 为此,他们计划利用包含真实机器人示范的数据集,记录的是机器人关节如何运动,而不是人类关节的运动。

研究人员还计划将强化学习融入其中------即让 AI 通过反复试错来学习------从而使 PhysicsGen 的数据集能够扩展到超出人类提供示范的范围。 他们还可能为这条流水线加入先进的感知技术,帮助机器人以视觉方式感知并理解周围环境,使机器能够分析并适应复杂多变的物理世界。

就目前而言,PhysicsGen 展示了 AI 如何帮助我们教不同的机器人去操控同一类别的物体,尤其是刚性物体。 不久之后,这条流水线或许还能帮助机器人找到处理柔软物体(如水果)以及可变形物体(如黏土)的最佳方式,不过这类交互在仿真中仍然很难精确复现。

Yang 和 Tedrake 与两位 CSAIL 同事共同撰写了这篇论文:共同第一作者、MIT 博士生 Hyung Ju "Terry" Suh(SM '22),以及 MIT 博士生 Bernhard Paus Græsdal。 机器人与人工智能研究院的多位研究人员也是论文作者,包括 Tong Zhao('22,MEng '23)、Tarik Kelestemur、Jiuguang Wang 和 Tao Pang(PhD '23)。 他们的工作得到了机器人与人工智能研究院以及亚马逊的资助。

研究团队最近在 Robotics: Science and Systems(机器人:科学与系统)会议上展示了这项工作。

相关推荐
森诺Alyson8 小时前
前沿技术借鉴研讨-2025.12.9(胎儿面部异常检测/超声标准平面检测/宫内生长受限)
论文阅读·人工智能·经验分享·深度学习·论文笔记
wzx_Eleven12 小时前
【论文阅读】多密钥低通信轮次的联邦学习安全聚合
论文阅读·深度学习·神经网络·安全·同态加密
做cv的小昊13 小时前
VLM相关论文阅读:【LoRA】Low-rank Adaptation of Large Language Models
论文阅读·人工智能·深度学习·计算机视觉·语言模型·自然语言处理·transformer
magic_ll15 小时前
【论文阅读】【yolo系列】YOLOv10: Real-Time End-to-End Object Detection
论文阅读·yolo·目标检测
北温凉15 小时前
【论文阅读】2023_B_Connectivity Analysis in EEG Data
论文阅读
m0_650108241 天前
ZeroMatch:基于预训练大视觉模型的零样本 RGB-D 点云配准
论文阅读·rgb-d点云配准·zeromatch·预训练视觉模型·零样本配准·手工几何特征
檐下翻书1731 天前
互联网企业组织结构图在线设计 扁平化架构模板
论文阅读·人工智能·信息可视化·架构·流程图·论文笔记
EEPI2 天前
【论文阅读】VLA-pilot:Towards Deploying VLA without Fine-Tuning
论文阅读
一碗白开水一2 天前
【论文阅读】VQ-VAE|Neural Discrete Representation Learning首个提出 codebook 机制的生成模型
论文阅读·人工智能·pytorch·深度学习·算法·迁移学习