机器人前沿--PalmE：An Embodied Multimodal Language Model 具身多模态大(语言)模型

首先解释这篇工作名称Palm-E，发表时间为2023.03，其中的Palm是谷歌内部在2022.04开发的大语言模型，功能类似ChatGPT，只是由于各种原因没有那样火起来，E是Embodied的首字母，翻译过来就是具身多模态大语言模型大模型，我们一般习惯将其称为具身多模态大模型。

何为具身？这个词听起来非常陌生，简单说就是AI+agent（机器人是其中一种agent）的结合，强调的的agent通过与环境互动来获取智能，类似人类获得智能的范式，博主将在之后的博客里做专门篇幅讲解，欢迎大家继续关注，下面开始来详细拆解这篇论文。

Palm-E两大任务：视觉问答(VQA)和具身任务规划

Palm-E用统一的网络架构和训练方式进行多任务，主要包括视觉问答(VQA)和具身任务规划。

具身任务规划

该任务要求大模型能理解人类的语言和意图，还需要机器人观察和操作环境中的物体，以及规划一系列的子目标和动作。其输入是多模态的输入（如文本、图像、触觉信息以及机器人的3D空间状态等），输出可被机器人逐步执行的任务步骤，比如当我们让其去抽屉里拿薯片，Palm-e会输出如下子任务步骤，而后机器人利用其它模块(我们称之为Policy，本工作用了RT1和LAVA这两个Policy来执行这些步骤skill)来逐步执行之：

step1：导航到抽屉；

step2：打开抽屉；

step3：取出薯片；

step4：关闭抽屉；

step5：导航至主人处；

step6：将薯片交给主人；

VQA

该任务与agent无关，用户输入图片和想问的问题，大模型输出对问题的文字回复。

贡献

提出和演示一个通用的,可迁移学习的，智能决策的多模态大模型；
训练方面，引入先进的结构思想，使得可以对多模态输入数据进行符号表征，用于训练推理，如neural scene representations ，entity-labeling multimodal tokens.
除了具身推理（embodied reasoner）， PaLM-E也是一个视觉语言方面的通才；
演示了增大模型的规模可以极大地提升多模态大模型性能，特别是减少灾难性遗忘(catastrophic forgetting)

Palm-E网络结构

整个网络的结构如上所示，多模态数据(图像，文本，物体状态等)经过特定的编码后直接输送到大语言模型，借助大语言模型的能力输出文字，这些文字可以是对问题的回复，也可以是对任务的规划。（看上去大家都应该学fei了）

训练与实验

文章大篇幅介绍了相关实验，实验数据集如下，主要包括网络VQA数据和机器人轨迹数据。

实验通过消融对比了不同大语言模型规模和训练方式对任务的影响。

VQA任务

VQA不是本工作的核心，但附带也能进行此类认为，因此也做了相关测评，该实验对比了不同规模模型和训练方式对该任务的影响，结果如下：

纯语言任务

该实验对比了不同规模模型对纯语言问答任务的影响。

机器人具身规划任务

这一部分是本工作的核心，验证了大语言模型规模和训练方式对该任务的影响，分别在TAMP(纯规划)，Language table(机械臂桌面push任务)和机器人移动操作任务（室内移动操作任务）上进行对比。

TAMP(Task and Motion Planning)任务

Language-Table

在该任务中，Palm-E规划任务，将高层次的人类语言转化成多个机器人可执行步骤，然后调用LAVA这个工作执行，整个工作流程如下所示：

一些实验结果如下所示：

移动操作任务

可供性评估（Affordance prediction）和失败检测

Affordance是指根据图片判断某个子任务skill可否被成功执行，失败检测是指根据观测，判断任务是否被成功完成，两者都是机器人闭环任务规划的一大重要环节，对比结果如下：

长水平规划(Long-horizon)

实验摘要和讨论

通用性与特定任务模型--迁移性(Generalist vs specialist models -- transfer)

利用多任务数据训练，最终可对单个任务起促进作用。（但这个实验博主觉得不太严密，缺乏一个full only robot data实验）

数据有效性(Data efficiency）

机器人的数据很难获得，但通过大量网络数据的训练，Palm-E也可在少量机器人数据上训练出一个不错的用于任务规划的模型，体现了一定的迁移性，OSRT的结果展示了另一种数据有效性的示例--使用集合输入表征。

保存纯语言能力

论文介绍了两种方法：

训练过程中freeze住LLM模型，但这可能会使得在机器人任务中很失败；
使用足够大的LLM模型。

总结

我们提出通过将图像等多模态信息注入到具身语言模型中来构建具身多模态大语言模型。实验表明现成的最先进的视觉语言模型仅接受一般 VQA 和字幕任务的训练还不足以用于具身推理任务，也有近期的工作表明了其在可供性评估上的局限性，为了克服这些局限性，我们提出PaLM-E，一个单一模型，能够在模拟和现实世界中控制不同的机器人，同时

具备一般视觉语言任务能力。尤其是将新颖的神经场景表示（即 OSRT）应用到Pla-E，使得即使没有大规模数据，该模型在机器人多任务中也特别有效。重要的是，我们也证明这种多模态训练带来多种迁移能力------将语言融入具身决策规划中，从而使机器人更高效地完成规划任务。尽管我们的结果表明冻结语言模型是可行的，使得通向通用具身多模式模型的道路同时完全保留语言能力，我们还提出了使用解冻模型的替代途径：增加语言模型的大小会显着减少灾难性遗忘。最大的模型，PaLM-E-562B，展示了强大的思维链能力和视觉图像任务能力。

个人思考

谷歌Palm-E的工作向我们展示了将大语言模型和多模态应用于机器人具身规划中，可以动态规划任务，同时展现了一定的迁移泛化性。但这个工作比较难以复现，模型易懂，但其中最大问题就在于它需要大量的数据，如同大多数其他AI工作一样，机器人具身大规模数据才是最大的瓶颈。