PaLM-E: An Embodied Multimodal Language Model

发表时间:arXiv 6 Mar 2023

作者单位:Robotics at Google

**Motivation:**大型语言模型已被证明可以执行复杂的任务。然而,在现实世界中启用一般推理,例如对于机器人问题,提出了落地的挑战。

**解决方法:**提出了具身语言模型PaLM-E,将现实世界的连续传感器模式直接合并到语言模型中,从而建立单词和感知之间的联系。

实现方式: 具身语言模型的输入是多模态句子,交织视觉、连续状态估计和文本输入编码 。端到端地训练这些编码,以及预训练的大型语言模型,用于包括顺序机器人操作规划、视觉问答和字幕在内的多个具身任务。

输入: PaLM-E 对多模态句子进行操作,即来自任意模态(例如图像、神经 3D 表示或状态,绿色和蓝色)的输入与文本标记(橙色)一起插入作为 LLM 的输入,端到端训练。

图像和状态估计 等输入被嵌入到与语言标记相同的潜在嵌入中,并由基于 Transformer 的 LLM 的自注意力层以与文本相同的方式进行处理。

把各个模态的数据,都转化为与 language tokens 相同维度的embedding。

对不同模态数据的处理:

  1. **对状态估计向量。**状态向量,例如来自机器人或对象的状态估计,可能是输入到 PaLM-E 的最简单。设 s ∈ RS 是一个描述场景中对象状态的向量。例如,s 可以包含这些对象的姿势、大小、颜色等。然后,MLP 将 s 映射到语言嵌入空间中。

  2. 对2D图像: 使用ViT.注意,ViT 嵌入的维度 ̃k 不一定与语言模型的维度相同。还可以通过后边的仿射变换改变它的维度.同时使用了Object-centric representations. We therefore also explore structured encoders that aim to separate visual inputs into distinct objects before injecting them into the LLM。也就是将图像表示分为不同的object。

  3. 对3D场景表示: 3D-aware Object Scene Representation Transformer (OSRT),OSRT learns 3D-centric neural scene representations on in-domain data through a novel view synthesis task.

结构: PaLM-E 是一个仅 decoder LLM,它在给定前缀或提示的情况下自回归生成文本补全。我们称我们的模型 PaLM-E。

输出: PaLM-E 的输出是由模型自回归生成的文本,可以是问题的答案,也可以是 PaLM-E 以文本形式产生的一系列决策,这些决策应该由机器人执行。即输出的是high-level的规划。 训练方式: Most of our architectures consist of three parts, an encoder ̃φ, a projector ψ, and the LLM 。LLM是被冻住的,only update the small projector ψ。

Co-training across tasks: 在我们的实验中,我们研究了协同训练我们的模型对各种不同数据的影响。主要由来自各种任务的一组不同的互联网规模的视觉和语言数据组成。设置采样频率,使得只有 8.9% 的完整混合是具身任务,for each embodiment有几个任务。----作者发现使用这种Co-training的方式会带来性能的提升。

实验:在仿真和两个不同的真实机器人中,考虑三种不同机器人实施例的不同机器人(移动)操作任务。

结论: 多种任务:standard visual-language tasks such as VQA and image captioning, as well as language tasks. 我们的结果表明,与单个任务的训练模型相比,多任务训练提高了性能。这种跨任务的转移可能导致机器人任务的数据效率很高,例如,从少数训练示例中显著增加学习成功,甚至展示了对未见过对象的新组合的单镜头或零镜头泛化。

最大的模型 PaLM-E-562B 展示了诸如多模态思维推理链和对多个图像进行推理的能力等突出能力,尽管仅在单图像提示上进行训练

**总结:是一个大脑,没有小脑。输出的是high-level的任务规划。**如:第一步。。。第二步。。。

相关推荐
沐雪架构师18 分钟前
AI大模型开发原理篇-2:语言模型雏形之词袋模型
人工智能·语言模型·自然语言处理
python算法(魔法师版)1 小时前
深度学习深度解析:从基础到前沿
人工智能·深度学习
kakaZhui1 小时前
【llm对话系统】大模型源码分析之 LLaMA 位置编码 RoPE
人工智能·深度学习·chatgpt·aigc·llama
struggle20252 小时前
一个开源 GenBI AI 本地代理(确保本地数据安全),使数据驱动型团队能够与其数据进行互动,生成文本到 SQL、图表、电子表格、报告和 BI
人工智能·深度学习·目标检测·语言模型·自然语言处理·数据挖掘·集成学习
佛州小李哥2 小时前
通过亚马逊云科技Bedrock打造自定义AI智能体Agent(上)
人工智能·科技·ai·语言模型·云计算·aws·亚马逊云科技
云空4 小时前
《DeepSeek 网页/API 性能异常(DeepSeek Web/API Degraded Performance):网络安全日志》
运维·人工智能·web安全·网络安全·开源·网络攻击模型·安全威胁分析
AIGC大时代4 小时前
对比DeepSeek、ChatGPT和Kimi的学术写作关键词提取能力
论文阅读·人工智能·chatgpt·数据分析·prompt
Fhd-学习笔记4 小时前
《大语言模型》综述学习笔记
笔记·学习·语言模型
山晨啊85 小时前
2025年美赛B题-结合Logistic阻滞增长模型和SIR传染病模型研究旅游可持续性-成品论文
人工智能·机器学习
一水鉴天5 小时前
为AI聊天工具添加一个知识系统 之77 详细设计之18 正则表达式 之5
人工智能·正则表达式