【论文阅读】RT-SKETCH: GOAL-CONDITIONED IMITATION LEARNING FROM HAND-DRAWN SKETCHES

RT-Sketch：基于手绘草图的目标条件模仿学习

摘要：在目标条件模仿学习（imitation learning，IL）中，自然语言和图像通常被用作目标表示。然而，自然语言可能存在歧义，图像则可能过于具体。在这项工作中，我们研究将手绘草图作为一种目标指定方式。草图和语言一样，用户可以轻松即时提供，但与图像类似，它也能帮助下游策略具备空间感知能力，甚至超越图像，区分与任务相关和不相关的对象。我们提出了 RT-Sketch，这是一种用于操作任务的目标条件策略，它将所需场景的手绘草图作为输入，并输出动作。我们在一个包含成对轨迹和相应合成生成的目标草图的数据集上训练 RT-Sketch。我们在一个可铰接的台面上进行的六个涉及桌面物体重新排列的操作技能任务中评估了这种方法。实验发现，在简单场景中，RT-Sketch 的表现与基于图像或语言条件的智能体相似，而在语言目标存在歧义或有视觉干扰的情况下，它表现出更强的鲁棒性。此外，我们展示了 RT-Sketch 能够解释并根据不同详细程度的草图采取行动，从简单的线条画到详细的彩色画。有关补充材料和视频，请访问我们的网站。

1. 引言

在家庭、工作场所或工业环境中与人类协同工作的机器人，在提供协助和实现自主作业方面有着巨大潜力。但需要仔细考虑，哪种目标表示方式最便于人类传达给机器人，同时也便于机器人理解并据此行动。具有指令跟随能力的机器人，试图通过将自然语言命令这一直观界面，作为语言条件模仿学习策略的输入，来解决这一问题（Brohan 等人，2023b；a；Karamcheti 等人，2023；Lynch 和 Sermanet，2020；Lynch 等人，2023）。例如，想象让一个家用机器人摆好餐桌。像 "把餐具、餐巾和盘子放在桌子上" 这样的语言描述就不够精确或存在歧义。餐具相对于盘子或餐巾的具体摆放位置并不明确，它们之间的距离是否重要也不清楚。为了达到更高的精度，用户可能需要给出更详细的描述，比如 "把叉子放在盘子右边 2 厘米处，距离桌子最左边边缘 5 厘米"，甚至需要在线修正（"不，你往右移得太远了，往回移一点！"）（Cui 等人，2023；Lynch 等人，2023）。虽然语言是指定目标的直观方式，但其定性的本质和模糊性，使得人类如果不给出冗长的说明或修正，就很难提供准确信息，也让机器人策略难以在下游精确操作中进行解释。

另一方面，近年来，使用目标图像指定目标，并结合或不结合语言指令来训练目标条件模仿学习策略，已被证明相当成功（Jiang 等人，2022；Jang 等人，2022）。在这些场景中，期望最终状态的场景图像可以完全指定预期目标。然而，这也有其自身的缺点：获取目标图像是一个很强的先验假设，而且预先录制的目标图像可能与特定环境相关，很难在不同环境中复用和泛化。

介于自然语言缺乏精确指定目标的粒度，而图像在不必要的细节上过度指定目标，导致需要互联网规模的数据来进行泛化之间，我们认识到当前的框架缺乏一种能够以方便且富有表现力的方式充分捕捉用户意图的目标表示。虽然自然语言高度灵活，但也可能高度模糊，或者需要冗长的描述。这在长期任务或需要空间感知的任务中，很快就会变得困难。与此同时，目标图像在不必要的细节上过度指定目标，导致需要互联网规模的数据来进行泛化。

为此，为了应对这些挑战，我们研究将手绘草图作为视觉模仿学习中一种方便且富有表现力的目标指定方式。由于草图简洁，它仍然像语言一样，便于用户即时提供。然而，与语言不同的是，（1）草图能提供更多信息，且有助于更具空间感知的任务指定。与目标图像一样，草图可以很容易地与现成的接受视觉输入的策略架构集成，但它提供了更高层次的目标抽象，忽略了不必要的像素级细节。最后，草图的质量以及对细节的选择性包含或排除，可以帮助下游策略区分与任务相关和不相关的细节，而无需像在图像中那样忠实地保留像素级细节；（2）帮助下游策略根据对物体的选择性包含、排除或细节程度，区分与任务相关和不相关的物体。此外，草图可以很容易地与接受视觉表示作为输入的现成策略架构集成。

在这项工作中，我们提出了 RT-Sketch，这是一种用于操作的目标条件策略，它将用户提供的所需场景的手绘草图作为输入，并输出动作。RT-Sketch 的新颖架构修改了原始的 RT-1 从语言到动作的 Transformer 架构（Brohan 等人，2023b），使其能够处理视觉目标而非语言目标，从而可以灵活地基于草图、图像或任何其他可视觉表示的目标进行条件设定。为了实现这一点，我们在进行标记化之前，将目标草图和观察历史连接起来作为输入，省略了语言部分。我们在一个包含 80K 条轨迹的数据集上训练 RT-Sketch，这些轨迹与通过图像到草图风格化网络合成生成的目标草图配对，该网络是从几百对图像 - 草图对中训练得到的。

我们在真实机器人上对 RT-Sketch 进行了六种操作技能的评估，这些技能涉及在带有抽屉的台面上重新排列桌面物体，并且场景变化多样。这些技能包括将物体移近彼此、将罐子推倒、将罐子直立放置、关闭抽屉和打开抽屉。实验发现，在简单场景中，RT-Sketch 的表现与基于图像或语言条件的智能体相似。当语言指令存在歧义或有视觉干扰时，我们发现，根据人类标注者的评估，RT-Sketch 在空间精度和对齐得分上，比基于语言或目标图像条件的策略高出约 2 倍（见图 1（右））。此外，我们展示了 RT-Sketch 可以处理不同程度的输入特异性，从粗略的草图到更逼真的彩色绘图（见图 1（左））。

2. 相关工作

在本节中，我们将讨论以前基于传统目标表示的目标条件模仿学习方法。我们还将重点介绍图像 - 草图转换方面的研究进展，这些进展为机器人领域中尚未充分探索的目标条件设定方式开辟了新的可能性。

目标条件模仿学习

尽管名称相似，但我们基于所需场景的手绘草图来学习操作策略，与策略草图（policy sketches）（Andreas 等人，2017）的概念不同，策略草图是描述任务结构子组件的符号表示。强化学习（Reinforcement learning，RL）在我们的场景中不太适用，因为定义一个能够准确量化提供的场景草图与智能体在训练过程中访问的状态之间对齐程度的奖励目标并非易事。因此，我们专注于模仿学习（imitation learning，IL）技术，特别是目标条件设定的场景（Ding 等人，2019）。

目标条件模仿学习已被证明在策略必须能够处理同一任务的空间或语义变化的场景中非常有用（Argall 等人，2009）。这些场景包括多个物体的重新排列（Brohan 等人，2023b；a；Lynch 等人，2023；Manuelli 等人，2019）、配套装备（kitting）（Zakka 等人，2020）、将可变形物体折叠成不同形状（Ganapathi 等人，2021）以及在杂乱环境中搜索不同的目标物体（Danielczuk 等人，2019）。然而，这些方法往往要么依赖语言（Brohan 等人，2023b；Lynch 和 Sermanet，2020；Lynch 等人，2023；Karamcheti 等人，2023；Shao 等人，2020），要么依赖目标图像（Danielczuk 等人，2019）来指定变化。后续工作实现了对目标图像和语言（Jang 等人，2022）、提示内图像（Jiang 等人，2022）或图像嵌入（Manuelli 等人，2019；Zakka 等人，2020；Ganapathi 等人，2021）的多模态条件设定。然而，所有这些表示最终都以某种方式源自原始图像或语言，这忽略了更抽象的目标表示的潜力，例如草图，它既易于指定，又能保留空间感知。

除了在目标表示方面缺乏灵活性之外，目标条件模仿学习还容易过度拟合演示数据，并且在新场景中即使遇到轻微的分布变化也难以处理（Ross 等人，2011）。对于语言条件设定，分布变化可能包括语义或空间歧义、新颖的指令或措辞，以及未见过的物体（Jang 等人，2022；Brohan 等人，2023b）。目标图像条件设定同样容易受到分布外视觉变化的影响，例如光照或物体外观的变化，以及未见过的背景纹理（Burns 等人，2022；Belkhale 等人，2023）。相反，我们选择草图，它足够简洁，可以抵御视觉干扰，同时又具有足够的表现力，能够提供明确的目标。先前的工作，包括（Barber 等人，2010）和（Porfirio 等人，2023），已经展示了草图在导航和有限操作场景中优于纯语言的效用。然而，这些工作中探索的草图主要用于指导操作时关节层面的低级运动，或者为导航提供明确的方向线索。Cui 等人（2022）将草图与其他模态一起视为目标条件操作的输入，但没有明确训练基于草图的策略。因此，他们得出结论，在目标指定方面，场景图像比草图图像更好。我们的结果与之不同且互补，即训练以草图为输入的策略在受到视觉干扰时，在感知空间和语义对齐的李克特量表评分上，分别比基于场景图像条件的策略高出 1.63 倍和 1.5 倍。

图像 - 草图转换

近年来，草图在计算机视觉领域越来越受欢迎，可用于物体检测、场景理解（Chowdhury 等人，2023b）等应用，既可以单独使用，也可以与文本和图像结合使用。在考虑如何最好地将草图融入模仿学习时，一个重要的设计选择是在（1）测试时（即将草图转换为与预训练策略兼容的其他目标模态），还是（2）训练时（即明确训练基于草图的模仿学习策略）考虑草图。对于（1），可以首先将给定的草图转换为目标图像，然后运行一个普通的基于目标图像条件的策略。这可以基于现有的草图到图像转换框架，如 ControlNet（Zhang 和 Agrawala，2023）、生成对抗网络（GAN）风格的方法（Koley 等人，2023），或者文本到图像合成方法，如 InstructPix2Pix（Brooks 等人，2023）或 Stable Diffusion（Rombach 等人，2022）。虽然这些模型在最佳条件下可以生成逼真的结果，但它们不能同时处理图像生成和风格转换，这使得生成的图像不太可能与智能体观察到的风格匹配。同时，这些方法容易产生幻觉伪影，引入分布变化（Zhang 和 Agrawala，2023）。

基于这些挑战，我们选择（2），并考虑使用图像到草图转换技术，对预先录制的演示轨迹中的终端图像进行事后重标记。最近，Vinker 等人（2022b；a）提出了用于预测输入图像物体或场景的基于贝塞尔曲线的草图的网络。草图质量由基于 CLIP 的对齐度量进行监督。虽然这些方法生成的草图具有较高的视觉保真度，但测试时的优化需要几分钟的时间，这无法扩展到机器人学习数据集的典型规模（数百到数千条演示轨迹）。与此同时，条件生成对抗网络（conditional generative adversarial networks，cGANs），如 Pix2Pix（Isola 等人，2017），已被证明对可扩展的图像到图像转换很有用。与我们的工作最相关的是 Li 等人（2019）的工作，他们在一个包含 5K 对图像和线条画的大规模众包数据集上，训练了一个 Pix2Pix 模型，用于从给定图像生成草图。我们在这项工作的基础上，在机器人轨迹数据上对图像到草图模型进行微调，并展示了它在实现基于草图的下游操作方面的效用。

3. 基于草图的条件模仿学习

在本节中，我们将首先介绍学习基于草图的条件策略这一问题。然后讨论训练一个端到端从草图到动作的模仿学习智能体的方法。首先，在 3.1 节中，我们将讨论辅助图像到草图转换网络的实例化，该网络可以从参考图像自动生成草图。在 3.2 节中，我们将讨论如何使用这样的模型，用合成生成的目标草图自动对现有的演示数据集进行事后重标记，并在这个数据集上训练基于草图的条件策略。