斯坦福大学李飞飞教授团队ARCap: 利用增强现实反馈收集高质量的人类示教以用于机器人学习

近年来，通过人类示范进行模仿学习在教授机器人操控技能方面取得了令人瞩目的进展。为了进一步扩大训练数据集的规模，近期的研究开始采用便携式数据采集设备，无需依赖物理机器人硬件。然而，由于在数据采集过程中缺乏机器人实时反馈，数据质量在很大程度上依赖用户的专业水平，并且许多设备仅适用于特定的机器人形态。为此，我们提出了 ARCap，一个便携式数据采集系统，通过增强现实（AR）提供视觉反馈，并通过触觉警告引导用户收集高质量示范数据。广泛的用户研究表明，ARCap 可以帮助新手用户收集与机器人运动学相匹配、且避免与场景碰撞的数据。使用 ARCap 收集的数据，机器人能够完成复杂环境中的操控任务，以及跨形态的长时间任务操作。ARCap 完全开源，易于校准，所有组件均由现成产品组建而成。

图 1：ARCap 系统概览 (a) 采集人类手部运动数据。 (b) 提供实时增强现实反馈，在 AR 显示中可视化与人手重定向的虚拟机器人。© 使用采集的数据展开训练后的机器人策略。

引言开发能够协助完成家务任务的机器人有潜力提升人类生活质量并增强人类能力。为实现这一目标，机器人必须能够在非结构化且往往杂乱的环境中操控日常物品。近年来，通过人类示范进行模仿学习取得了显著进展。利用远程操控机器人系统收集的示范数据，可以提供精准的、针对具体场景的观察和动作对，从而通过监督学习有效地训练机器人策略。然而，机器人系统以及熟练操作人员的需求大大限制了数据采集的可及性和可扩展性。另一种方法是使用便携式系统采集人类示范数据，无需物理机器人硬件支持。这些系统利用人类的灵活性和适应能力直接操控物体，便于创建大规模、多样化的人类示范数据集。然而，由于缺乏机器人硬件，所采集的示范数据是否适用于训练机器人策略尚不明确，需要经过多步流程进行验证。首先，需要对人类与机器人的形态差异进行数据重定向；其次，重定向后的数据需通过实际机器人在真实物体上的操作进行验证；最后，机器人策略需基于验证后的数据进行训练。示范的成功依赖于示范者对机器人与人类几何结构及能力差异的理解。失败可能发生在重定向阶段（因机器人关节或速度限制）、验证阶段（因偶发碰撞）或策略训练阶段（因数据无效混杂）。我们提出的问题是：是否可以在数据采集过程中通知用户潜在的失败风险，以便他们调整操作并收集更高质量的数据？一个关键观察是，在基于机器人进行远程操控时，当人类看到错误的机器人动作时，会迅速调整操控方式以纠正错误。这种强有力的视觉反馈能够帮助用户采集可执行且适合机器人形态的数据。受此启发，我们提出：能否在便携式数据采集系统中模拟类似的反馈，引导用户收集高质量的示范数据？我们提出 ARCap，一种创新的数据采集系统，能够实时重定向并可视化机器人的动作，为示范者在数据采集过程中提供即时视觉反馈，指导其采集机器人可执行的示范数据。该系统利用增强现实（AR）技术，既作为交互式显示器，也是捕捉用户环境视图的强大传感器。通过 AR 显示器，我们能够模拟机器人的运动学，在头戴设备中进行叠加，并提供潜在失败模式的视觉提示（例如，机器人关节或速度限制超出时，虚拟机器人无法跟随人类手部运动）。此外，借助 AR 设备中场景重建的最新技术，我们可以在虚拟机器人与重建的环境之间进行碰撞检测。当检测到碰撞时，系统通过显示闪烁效果和触觉振动提醒用户，促使其调整动作，为机器人的操作留出足够空间。ARCap 不仅提高了数据质量，还能够模拟不同的机器人形态，支持为不同机器人（如平行夹爪、多指灵巧手）采集数据。用户研究表明，即便是没有任何数据采集经验的新手用户，借助 ARCap 也能采集高质量数据，这些数据足以训练模仿学习策略，甚至可完成在复杂环境中的操控任务------这是以往缺乏反馈的系统无法实现的。此外，ARCap 还能跨不同机器人形态采集数据，使机器人能够完成复杂的长时操控任务，例如堆叠多层乐高塔等操作。II. 相关工作从示范中学习模仿学习（Imitation Learning, IL）已被证明能够有效地使机器人执行多种操控任务 $4, 20, 34, 23, 11, 13, 2, 1$ 。传统的 IL 方法，例如 DMP 和 PrMP $33, 24, 29, 30$ ，虽然具有较高的样本效率，但在处理高维观察空间时面临挑战。相比之下，近年来基于深度神经网络的 IL 方法能够直接从原始图像输入中学习策略 $27, 14, 49$ ，甚至适用于双手操作等复杂的机器人系统 $47, 17, 42$ 。尽管这些方法效果显著，但扩展训练数据量仍然是一个重大难题。远程操控是近期研究中常用的数据采集方法 $44, 14, 26, 21, 39, 48, 3, 41, 16, 25, 46, 15, 5, 31, 19, 9, 32, 18$ 。许多低成本的远程操控系统基于 VR 控制器或手部追踪 $22, 5, 9, 18$ 以及主从关节映射 $46, 15, 45, 42, 37, 12$ 被广泛使用。然而，尽管这些动作输入设备成本较低，使用远程操控进行数据采集仍需要实际机器人参与，因而难以实现大规模分发。相比之下，我们的方法遵循近期无机器人硬件采集数据的趋势 $10, 40, 7, 38, 35$ ，从而更高效地扩展训练数据。无机器人数据采集系统在无机器人参与的自然环境中采集数据并用这些数据训练机器人已成为降低系统总成本的一种有吸引力的方向。此前的研究 $7, 38, 35$ 提出了低成本的自然环境数据采集系统。与直接使用人类视频进行训练 $36$ 相比，这些系统捕获了更细粒度的人类动作，有助于机器人完成复杂任务，例如泡茶 $38$ 、擦盘子 $7, 38$ 和使用空气炸锅 $35$ 。我们的 ARCap 系统是一种便携式、自然环境中的数据采集系统。与现有系统相比，它提供了视觉和触觉反馈，帮助没有数据采集经验的用户意识到机器人与人类形态之间的差异。与 ARCap 最相关的工作是 AR2-D2 $10, 40$ 。然而，ARCap 的重点在于通过重建的场景地图提供实时视觉反馈和车载碰撞检测。此外，ARCap 通过在 AR 显示中可视化重定向的机器人，帮助用户采集适用于不同机器人形态（例如平行夹爪和多指灵巧手）的数据。III. 方法ARCap 是一个基于增强现实（AR）的数据采集界面与策略学习框架，旨在将人类手部运动捕捉数据转换为机器人的控制策略。其主要特点包括：实时反馈：通过 AR 提供机器人状态的实时可视化，指导用户在没有物理机器人的情况下收集高质量且可重复的数据。跨形态支持：AR 可视化支持平行夹爪和多指灵巧手等多种机器人硬件类型，使用户能使用同一系统为不同机器人采集数据。便携性：系统具有独立电源、存储和无线跟踪功能，支持在自然环境中进行数据采集。以下部分将描述实现这些特性的系统设计以及用于实际机器人控制的训练策略。A. ARCap 系统设计近期便携式机器人数据采集界面的进展 $38, 7, 35$ 使得无需物理机器人即可扩展数据采集成为可能。然而，由于数据采集过程中缺乏机器人实时反馈，无法保证采集的数据在实际机器人上可重复利用。常见的失败模式包括：1. 人类动作过快，机器人无法复制；2. 人类与机器人的尺寸差异导致机器人与环境发生碰撞，即使人类操作时未发生；3. 数据采集系统针对特定机器人设计，需要为不同的机器人末端执行器进行重新设计。这些问题引出了关键问题：如何在数据采集过程中向用户提示这些问题并指导他们收集可供机器人使用的数据？
信息性增强现实反馈在 ARCap 系统中，我们实现了视觉反馈和触觉反馈，用于向用户提供以下信息：摄像头的可视范围、机器人运动学约束、关节速度限制以及机器人与环境之间的潜在碰撞情况。
a) 实时可视范围检查模仿学习中的常见问题之一是操控场景并非总是可见。这一问题频繁出现，因为机器人的 RGB-D 摄像头的视场通常比用于数据采集的摄像头（如 Quest 3 的透视摄像头）更窄。为帮助示范者在数据采集期间将操控场景保持在深度摄像头的视场范围内，我们在界面上渲染了一个矩形框，显示 RGB-D 摄像头的实际视场范围（如图 2 所示）。用户需要主动将场景保持在框内，以确保视觉数据被正确记录。

图 2：增强现实反馈的可视化 (a) 正常数据记录：红色框表示 RGB-D 摄像头的可见区域。 (b) 碰撞警告：当虚拟机器人与环境发生碰撞时，手套上的控制器振动，框架闪烁蓝色。 © 快速运动警告：当用户动作超出机器人的速度限制时，框架变为黄色。 (d) 用户在数据采集过程中可检查目标物体是否在摄像头视野范围内。b) 实时运动重定向当为特定机器人采集数据时，其运动学可能与人类手臂和手部有显著差异。为提醒用户运动学限制，系统在 AR 中渲染了一个虚拟机器人，并将其重定向到用户的手部。不同的末端执行器可能采用不同的重定向方法（将在后续部分讨论）。在数据采集前，用户需将虚拟机器人放置在世界坐标系中的固定位置。采集过程中，虚拟机器人的末端执行器将跟踪用户的手部动作；当用户用手与场景中的物体交互时，需考虑虚拟机器人是否能执行该动作。例如，对于配备平行夹爪的虚拟机器人，如果用户尝试通过指尖行走调整物体姿态，虚拟机器人将无法有效执行此动作，正如附加视频所示。此外，机器人关节具有速度限制，虚拟机器人实现了这些限制，超速时无法跟踪用户输入。如果用户手部动作过快，用户手部与机器人末端执行器之间将出现显著视觉错位，矩形框也会闪烁黄色以提醒用户机器人存在速度限制。c) 实时碰撞检测为提醒用户机器人与环境之间的潜在碰撞，系统会检查虚拟机器人与实际场景的碰撞情况。我们发现，仅通过透视摄像头观察虚拟机器人的运动不足以避免碰撞，因为人类难以准确感知深度。当虚拟机器人与预扫描的静态场景发生碰撞时，系统通过振动安装的控制器提供触觉碰撞反馈，并使矩形框闪烁以提供更强的碰撞反馈信号（如图 2 所示）。借助这些实时反馈信号，用户可以调整数据采集策略，或者删除严重违反约束条件的示范数据。单系统支持跨形态数据采集 ARCap 能够将多种末端执行器可视化并重定向到用户手部，支持为不同机器人形态采集数据，无需硬件修改。对于任何新机器人形态，只要存在可重复人类示范的重定向过程，ARCap 都可以用于数据采集。我们针对两种不同的末端执行器（安装在 Franka Panda 机械臂上）提出了实时重定向过程：1.Leap Hand，一种全驱动的四指灵巧手；2.Fin-ray Gripper，一种柔性平行夹爪。灵巧手类似于 $38$ ，我们在世界坐标系中使用逆运动学（IK）将灵巧手的指尖与人类手指的指尖对齐。该逆运动学问题分两步解决：首先，通过逆运动学将 Leap Hand 的手腕姿态匹配到 Quest 控制器提供的人类手腕姿态；然后，将机器人指尖位置匹配到 Rokoko 数据手套跟踪的人类指尖位置。由于 Leap Hand 的每根手指具有一个冗余自由度，我们需要添加零空间约束以鼓励自然的手部姿势并避免手指间的自碰撞。我们使用了 Pybullet 的零空间 IK 求解器 $8$ ，该求解器基于之前的解实时解决当前关节角度问题。

图 3：跨形态数据采集 (a) ARCap 可通过引导用户将手部动作变为类似夹爪的形状，为平行夹爪采集数据。如果用户改变手势，重定向误差将显著增大。 (b) 对于多指灵巧手，ARCap 将机器人的指尖重定向以匹配人类指尖，机器人的手腕方向由安装在用户手套上的控制器方向决定。平行夹爪对于平行夹爪，用户使用食指和拇指模拟其操作。如图 3 所示，夹爪尖端的中点与用户食指和拇指之间的中点对齐，同时控制器跟踪的手腕方向设置夹爪的方向。由于夹爪只能完全打开或关闭，其状态由用户食指和拇指之间的距离决定。如果距离大于夹爪处于打开状态时的宽度，则设为打开；否则设为关闭。在实际机器人上，夹爪以 1Hz 的频率响应打开和关闭命令。在重定向过程中，如果用户过于频繁地打开和关闭手部，虚拟夹爪会延迟 1 秒才从上一个状态切换到新状态。

图 4：ARCap 系统布局用户佩戴 AR 头显和运动捕捉手套，控制器安装在手套上用于跟踪手掌的 6D 姿态。数据存储在背包内的笔记本电脑中。B. 模仿学习1) 数据处理 ARCap 记录以下数据：

• 相机坐标系中的彩色点云；• 通过逆运动学（IK）计算的虚拟机器人关节角度；• 世界坐标系中的头显姿态；

• 世界坐标系中的虚拟机器人姿态。收集的数据可以通过简单的后处理程序用于模仿学习。我们首先将所有数据转换到世界坐标系中。对于点云数据，我们进一步在世界坐标系中裁剪点云，以移除背景物体和桌面。在采集的数据中，可以看到用户的手部和手臂。为了减少视觉差异，我们在点云数据集中叠加了由深度摄像头可见的虚拟机器人点云。数据处理完成后，每个任务的数据将存储在一个 hdf5 文件中。2) 训练和测试对于处理后的数据，我们使用扩散策略（Diffusion Policy）进行模仿学习。类似于 $38, 43$ ，我们采用一个简单的 PointNet 来压缩彩色点云为潜在向量。随后，将该潜在向量与当前机器人手臂和手部的关节角度连接起来，作为观测值。生成的动作包括机器人手臂和手部目标关节角度；对于灵巧手（Dex Hand），动作包括每根手指的目标关节角度；对于平行夹爪，动作包括二进制的打开和关闭命令。

图 5：基于AR的摄像头校准在校准摄像头时，用户将虚拟机器人的基座与实际机器人的基座对齐。我们的训练和测试流程基于 robomimic $28$ ，这是一个统一的机器人模仿学习框架。在测试训练好的策略时，我们可以利用 ARCap 系统简化手眼校准过程。如图 5 所示，为了计算相机相对于机器人基座的姿态，我们在 ARCap 应用中将虚拟机器人的基座与实际机器人的基座对齐。IV. 实验我们设计实验来回答以下问题：

Q1：ARCap 是否能帮助普通用户收集更高质量的数据？2. Q2：ARCap 收集的数据是否能帮助机器人在复杂环境中操控？3. Q3：ARCap 收集的数据是否适用于具有显著不同形态的机器人？
Q4：ARCap 收集的数据是否足以支持长时操控任务？A. 实验设置

图 7：真实机器人评估设置在评估过程中，我们将头显安装在三脚架上，并将其摄像头连接到机器人工作站。训练好的策略利用头显摄像头提供的点云观测，生成控制机器人的动作指令。我们在实验中使用两台 Franka Panda 机械臂，一台配备 Leap Hand 灵巧手，另一台配备 Fin-ray 平行夹爪。这两台机器人共享同一工作空间。在数据采集过程中，Quest 3 头显运行 Unity 应用以实现可视化与数据流传输，而一台搭载 i5-13200H CPU 的 Windows 笔记本电脑用于求解逆运动学（IK）并存储数据。在训练和测试自主策略时，我们使用一台搭载 RTX3090 GPU 和 i7-13700 CPU 的工作站。在测试中，我们按照前述校准过程校准摄像头，并将头显固定在假人头上，用作 RGB-D 摄像头（见图 7）。B. 用户研究为了回答 Q1，我们进行了用户研究，邀请了 20 名参与者测试新系统 ARCap（带视觉和触觉反馈）以及旧系统 DexCap（无反馈）。参与者对 VR/AR 设备的使用经验不同，其中一半没有数据采集或机器人学习的经验（图 8.c,e 显示了参与者的背景分布）。此外，在参与本次研究之前，所有参与者都未使用过 ARCap 或 DexCap。

图 8：用户研究结果 (a) 我们邀请了20名不同背景的用户分别使用 DexCap $38$ 和 ARCap 进行数据采集。 (b)-(e) 用户体验调查结果。 (f)-(g) 使用采集数据进行机器人评估的结果。测试任务包括：1.使用 Leap Hand 灵巧手在复杂环境中拾取并放置网球（任务 1）。2.使用 Fin-ray 平行夹爪组装单块乐高积木（任务 2）。任务 1 旨在测试 ARCap 的反馈能否帮助用户在复杂环境中避免碰撞；任务 2 旨在测试反馈是否能帮助用户在不同末端执行器形态下收集有效数据。每个任务有 3 个初始状态，参与者需为每个初始状态收集 3 条轨迹。基于模仿学习策略的经验，轨迹的可重复性和场景的可见性是决定数据质量的两个关键因素。为定量评估数据质量，我们测试了机器人是否能重现收集的轨迹并完成相同任务，以及数据采集过程中操控场景是否始终可见。结果（见图 8）：相较于 DexCap，ARCap 的重现成功率提高了 40% 以上，场景可见率提高了 60% 以上。在评估中，ARCap 在两个任务中都显著减少了因碰撞或运动学限制导致的失败，并有效避免了因用户忽略夹爪关闭速度限制而导致的失败。调查问卷显示，大多数参与者认为视觉和触觉反馈对改善数据采集策略有帮助（图 8.b,d）。C. 复杂环境中的操控为验证 ARCap 收集的数据能否帮助机器人在复杂环境中进行模仿学习，我们分别使用 ARCap 和 DexCap 收集了两个 30 分钟的数据集，并在其上训练了两种扩散策略。数据由熟悉两种系统的论文作者收集。在训练后，我们在 20 次不同初始化的实验中评估策略。结果（见表 1）：相较于 DexCap，ARCap 策略的成功率提高了 35%，且测试时未发生碰撞。将多名首次用户在用户研究中采集的 30 分钟数据合并后，基于 ARCap 的策略在 3 个指定初始状态下的成功率为 60%，而 DexCap 策略在不同试验中均失败。

表 I：自主策略的成功率D. 不同形态下的长时操控任务为回答 Q3 和 Q4，我们验证了 ARCap 能否收集适应于与人类显著不同形态的高质量数据，并通过模仿学习帮助机器人完成任务。我们使用平行夹爪进行长时三阶段乐高积木组装任务（见图 6.c）。该任务具有挑战性，因为它需要策略学习在不同阶段对乐高积木进行不同的抓取和组装动作。我们分别使用 DexCap 和 ARCap 收集了一小时的人类操控数据集，并在其上训练了两种策略。首先，我们在不同阶段独立评估成功率，每次试验后人工将乐高塔重置到前一阶段。结果（见表 1）：ARCap 在阶段 1、2 和 3 的成功率分别为 70%、80% 和 85%。在完全自主组装 3 个阶段的评估中，ARCap 策略的成功率为 40%，比 DexCap 策略平均高 51%。该策略还能在用户拆解乐高塔时对不同阶段进行反应（见补充视频）。

图 6：实验任务 (a) 使用灵巧机器人手在复杂场景中执行拾取与放置任务。 (b) 使用平行夹爪完成单阶段乐高积木组装。 © 执行三块乐高积木的长时组装任务。V. 结论与未来工作我们提出了 ARCap，这是一种便携式数据采集系统，通过视觉和触觉反馈，使没有相关经验的用户能够跨不同形态收集高质量数据。借助 ARCap，我们可以通过模仿学习教授机器人在复杂环境中的操控技能，并实现跨形态的长时操控任务。未来工作：增强反馈与重定向过程的设计，使 ARCap 能够记录人类的躯干运动，以支持移动机器人或人形机器人的数据采集。目前，用户主要通过被动反馈来改进数据采集策略；未来可结合大型视觉语言模型（VLM），为用户提供主动的指导，从而进一步提升数据采集策略和效率。参考文献1. Brenna D Argall 等. "机器人示范学习的综述"，《机器人与自主系统》，第57卷第5期（2009），第469-483页。2. Aude Billard 等. "通过示范进行机器人编程"，《机器人学手册》，Springer出版，2008年，第1371-1394页。3. Anthony Brohan 等. "Rt-1：大规模真实世界控制的机器人转换器"，arXiv预印本，arXiv:2212.06817（2022）。4. Sylvain Calinon 等. "通过模仿学习和再现手势"，《IEEE机器人与自动化杂志》，第17卷第2期（2010），第44-54页。5. Xuxin Cheng 等. "Open-TeleVision：具有沉浸式主动视觉反馈的远程操作"，arXiv预印本，arXiv:2407.01512（2024）。6. Cheng Chi 等. "通用操控接口：无需机器人硬件的自然环境机器人教学"，arXiv预印本，arXiv:2402.10329（2024）。7. Cheng Chi 等. "通用操控接口：无需机器人硬件的自然环境机器人教学"，arXiv预印本，arXiv:2402.10329（2024）。8. Erwin Coumans. "Bullet物理模拟"，《ACM SIGGRAPH 2015课程》，2015年，第1页。9. Runyu Ding 等. "Bunny-VisionPro：用于模仿学习的实时双手灵巧远程操作"，arXiv预印本，arXiv:2407.03162（2024）。10. Jiafei Duan 等. "AR2-D2：无需机器人即可训练机器人"，arXiv预印本，arXiv:2306.13818（2023）。11. Peter Englert 和 Marc Toussaint. "从单次示范中学习操作技能"，《国际机器人研究杂志》，第37卷第1期（2018），第137-154页。12. Hongjie Fang 等. "低成本外骨骼用于野外全臂操作学习"，arXiv预印本，arXiv:2309.14975（2023）。13. Chelsea Finn 等. "通过元学习的一次性视觉模仿学习"，《机器人学习会议》，PMLR出版，2017年，第357-368页。14. Peter Florence, Lucas Manuelli 和 Russ Tedrake. "视觉运动策略学习中的自监督对应"，《IEEE机器人与自动化快报》，第5卷第2期（2019），第492-499页。15. Zipeng Fu, Tony Z Zhao 和 Chelsea Finn. "移动ALOHA：通过低成本全身远程操作学习双手移动操控"，arXiv预印本，arXiv:2401.02117（2024）。16. Jensen Gao 等. "通过组合泛化高效采集机器人操作数据"，arXiv预印本，arXiv:2403.05110（2024）。17. Jennifer Grannen 等. "稳定行动：学习双手协调操控"，《机器人学习会议》，PMLR出版，2023年，第563-576页。18. Jonne van Haastregt 等. "操作你的机器人：增强现实领导-跟随远程操作"，arXiv预印本，arXiv:2407.11741（2024）。19. Tairan He 等. "OmniH2O：通用且灵巧的人形机器人全身远程操作与学习"，arXiv预印本，arXiv:2406.08858（2024）。20. A.J. Ijspeert, J. Nakanishi 和 S. Schaal. "基于非线性动力系统的人形机器人运动模仿"，《2002 IEEE国际机器人与自动化会议》（Cat. No.02CH37292），第2卷（2002），第1398-1403页。21. Liyiming Ke 等. "使用筷子的远程操作：分析用户示范中的人为因素"，《2020 IEEE/RSJ国际智能机器人与系统会议（IROS）》，IEEE出版，2020年，第11539-11546页。22. Alexander Khazatsky 等. "Droid：大规模自然环境机器人操控数据集"，arXiv预印本，arXiv:2403.12945（2024）。23. Jens Kober 和 Jan Peters. "模仿与强化学习"，《IEEE机器人与自动化杂志》，第17卷第2期（2010），第55-62页。24. Jens Kober 和 Jan Peters. "学习机器人运动基元"，《2009 IEEE国际机器人与自动化会议》，IEEE出版，2009年，第2112-2118页。25. Toru Lin 等. "使用两只多指手学习视觉触觉技能"，arXiv预印本，arXiv:2404.16823（2024）。26. Ajay Mandlekar 等. "通过人类推理和灵巧操控将机器人监督扩展到数百小时：Roboturk机器人操控数据集"，《2019 IEEE/RSJ国际智能机器人与系统会议（IROS）》，IEEE出版，2019年，第1048-1055页。27. Ajay Mandlekar 等. "在离线人类示范中，哪些因素对机器人操控学习更重要？"，《机器人学习第五届年会》，2021年。28. Ajay Mandlekar 等. "在离线人类示范中，哪些因素对机器人操控学习更重要？"，arXiv预印本，arXiv:2108.03298（2021）。29. Alexandros Paraschos 等. "概率运动基元"，《神经信息处理系统会议论文集》，Curran Associates出版，2013年。30. Alexandros Paraschos 等. "在机器人中使用概率运动基元"，《自主机器人》，第42卷第3期（2018），第529-551页。31. Aaditya Prasad 等. "一致性策略：通过一致性蒸馏加速视觉运动策略"，arXiv预印本，arXiv:2405.07503（2024）。32. Yuzhe Qin 等. "Anyteleop：通用基于视觉的灵巧机器人手臂-手远程操作系统"，arXiv预印本，arXiv:2307.04577（2023）。33. Stefan Schaal. "动态运动基元------人类和人形机器人运动控制的框架"，《动物和机器的自适应运动》，Springer出版，2006年，第261-280页。34. Stefan Schaal. "模仿学习是通向人形机器人的途径吗？"，《认知科学趋势》，第3卷第6期（1999），第233-242页。35. Nur Muhammad Mahi Shafiullah 等. "将机器人带回家"，arXiv预印本，arXiv:2311.16098（2023）。36. Kenneth Shaw, Shikhar Bahl 和 Deepak Pathak. "VideoDex：从互联网视频中学习灵巧性"，《机器人学习会议》，2022年。37. Kenneth Shaw 等. "复杂任务中的双手灵巧性"，《机器人学习第八届年会》，2024年。38. Chen Wang 等. "Dexcap：可扩展和便携的灵巧操控动作捕捉数据采集系统"，arXiv预印本，arXiv:2403.07788（2024）。39. Chen Wang 等. "通过手眼协调实现泛化：用于学习空间不变的视觉运动控制的动作空间"，《2021 IEEE/RSJ国际智能机器人与系统会议（IROS）》，IEEE出版，2021年，第8913-8920页。40. Jun Wang 等. "EVE：通过增强现实使任何人都能训练机器人"，arXiv预印本，arXiv:2404.06089（2024）。41. Philipp Wu 等. "Gello：通用、低成本且直观的机器人操控远程操作框架"，arXiv预印本，arXiv:2309.13037（2023）。42. Shiqi Yang 等. "ACE：低成本灵巧远程操作的跨平台视觉外骨骼系统"，《机器人学习会议》，2024年。43. Yanjie Ze 等. "3D扩散策略"，arXiv预印本，arXiv:2403.03954（2024）。44. Tianhao Zhang 等. "通过虚拟现实远程操作进行复杂操控任务的深度模仿学习"，《2018 IEEE国际机器人与自动化会议（ICRA）》，IEEE出版，2018年，第5628-5635页。45. Tony Z Zhao 等. "ALOHA解锁：机器人灵巧性的简单配方"，《机器人学习第八届年会》，2024年。46. Tony Z Zhao 等. "使用低成本硬件学习精细双手操控"，arXiv预印本，arXiv:2304.13705（2023）。47. Yifeng Zhu 等. "Viola：基于视觉的操控模仿学习，带有对象提案先验"，arXiv预印本，arXiv:2210.11339（2022）。48. Yifeng Zhu 等. "Viola：基于视觉的操控模仿学习，带有对象提案先验"，《机器人学习会议》，PMLR 出版，2023年，第1199-1210页。