具身智能之RT1

标题 : RT-1: Robotics Transformer for Real-World Control at Scale
论文 : arxiv.org/pdf/2212.06...

导读

机器人学习领域的泛化问题是指机器人模型能够将在特定任务、环境或条件下学到的知识和技能应用到新的、未见过的任务、环境或条件的能力。在现实世界中，机器人面临的任务和环境是多样且不断变化的，因此泛化能力对于机器人的实用性和灵活性至关重要。以下是机器人学习中泛化问题的几个关键方面：

任务泛化： 机器人可能在特定任务上接受了训练，例如抓取特定的物体，但当面对新的形状、大小或材质的物体时，机器人需要能够泛化其学到的技能以成功执行新任务。
环境泛化： 机器人在学习时可能局限于特定环境，如特定的房间或实验室。环境泛化问题涉及到机器人如何将在一个环境中学到的技能应用到具有不同布局、光照条件或其他特征的新环境中。
条件泛化： 机器人可能在特定条件下进行训练，例如在无干扰的情况下执行任务。条件泛化要求机器人能够处理新条件下的变化，如在有其他物体干扰或在不同时间段进行操作。
跨机器人泛化： 不同机器人的物理结构和传感器配置可能有很大差异。跨机器人泛化问题涉及到一个机器人学到的技能能否被另一个具有不同形态或能力的机器人所复现。
跨时间泛化： 机器人需要能够随时间保持其性能，即使在经过长时间未使用或在技能未被频繁练习的情况下。

思路

RT1的出现就是为了解决：

**机器人学习中的泛化问题。**尤其是在真实世界控制任务中，模型需要能够处理多样化的任务、环境和对象。
**机器人数据收集的难度和成本较高问题。**训练具有良好泛化能力的学习模型，解决了如何在机器人领域中利用大规模、多样化的任务无关数据集来训练模型的问题

方法

研究者们提出了一个名为RT-1的Transformer架构，该模型通过开放式任务无关训练和高容量架构来吸收多样化的机器人数据。RT-1模型结合了FiLM（Feature-wise Linear Modulation）调节的EfficientNet、TokenLearner以及Transformer，以实现高效的推理速度和实时控制的可行性。 RT-1 的输入由图片序列、自然语言指令构成，输出由机械臂运动的目标位姿( x, y, z, roll, pitch, yaw）、gripper stαtus 、模式转换指令构成。

核心方法

Instruction and image tokenization

使用预训练的EfficientNet和Universal Sentence Encoder来处理图像和文本指令，提取特征。通过FiLM层将图像特征和文本嵌入结合起来，以增强模型对任务相关特征的提取。

6张动作视频历史帧序列（分辨率300×300）输入到预训练的ImageNet EfficientNet-B3模型中得到9×9×512 的spatial feature map 然后flatten得到81个visual tokens
为了融合语言指令，RT-1使用Universal Sentence Encoder（USE）对指令进行embedding，然后将这个embedding作为预训练的FiLM（Feature-wise Linear Modulation）层的输入
RT-1的图像和指令tokenization总共有16M的参数，包含26层MBConv块和FiLM层，输出 81 个vision-language tokens。

TokenLearner

使用TokenLearner模块来减少Transformer需要处理的token数量，从而提高推理速度

为了进一步压缩需要处理的token数量并加快推理速度，RT-1采用了TokenLearner，这是一个element-wise attention module，它学习如何将大量token映射到更少的token集合中。
实现思路：
- 计算一个空间注意力图，突出显示重要区域（使用卷积层或 MLP）。
- 然后将这个空间自注意力图应用到输入中，来为每个区域进行不同的加权（忽略不必要的区域），并将结果空间池化，来生成最终学习的 token。
TokenLearner将来自FiLM-EfficientNet层的81个视觉token降采样到8个最终token，这些token随后被传递给Transformer层。

Decoder-only Transformer

采用Transformer模型来学习图像、文本和动作之间的映射关系，并输出离散化的动作token。
实现思路：
- 讲6张图的序列，每张图的8个token concat 成48个token
- 输入到一个decoder-only的Transformer里，包含有8个自注意力层和19M的参数，用于输出action token。

Action tokenization

action token在RT-1中被离散化为256个区间。这包括臂部运动的7个维度（x、y、z、滚转、俯仰、偏航、夹持器开度）和基座运动的3个维度（x、y、偏航）。
RT-系列训练中使用的动作字符串表示。这样一个字符串的例子可以是一系列机器人动作令牌号码，例如"1 128 91 241 5 101 127 217"，其中每个数字代表一个特定的动作区间（旋转、位置变化）。
- 对所有的 action 进行归一化，然后拼接，得到下面这个轨迹

实验

论文使用Everyday Robots公司的移动操作机器人在三个环境中进行评估：两个真实的办公室厨房和一个模拟训练环境。评估包括对训练任务的性能测试，以及对新任务、干扰物和背景的泛化能力测试。

数据集

RT-1使用了来自13个机器人的约130k个演示数据，这些数据在17个月的时间里收集，覆盖了700多个不同的任务指令。

实验目标

评估RT-1在学习大量指令、泛化到新任务、环境和对象方面的能力。
探索RT-1利用不同数据源（如仿真数据或其他机器人数据）的能力。
测试RT-1在长时序任务中的表现，以及其在不同数据量和多样性下的表现。

指标

RT-1在执行训练任务上的成功率达到97%，在未见任务上的泛化能力达到76%，这比之前的模型有显著提高。
RT-1在处理干扰物和背景变化方面表现出色，成功率分别达到83%和59%。
在长时序任务中，RT-1能够在SayCan框架中执行多达50个步骤的任务，显示出在真实厨房环境中组合多个技能的能力。

总结

RT-1是一个由Google开发的机器人学习模型，专注于提升机器人在真实世界任务中的泛化和实时控制能力。它结合了高效的Transformer架构和大规模数据集，能够处理多样化的任务并适应新环境。实验表明，RT-1在执行任务、泛化到新任务以及鲁棒性方面均优于现有模型，展现了其在机器人学习领域的潜力。

最后，诚邀对具身智能和多模态大模型等前沿AI技术感兴趣的同学加入CVHub官方知识星球，获取每日最新相关技术进展，共同探讨和推动人工智能领域的创新发展。在这里，您将有机会与同行交流心得，参与专业讨论，更有机会与行业专家进行深入互动，共同见证和塑造智能科技的未来。期待您的加入，让我们携手在人工智能的浪潮中乘风破浪！