PaLM-E 的改进版本及开源可行方案综述及讨论

PaLM-E 本身更像"具身多模态 LLM"的起点，不是今天最适合直接落地的开源方案。

它的重要性在于提出了把图像、状态等连续观测直接嵌入 LLM token 流里，用一个统一模型做语言、视觉和高层机器人推理；但后续真正把这条路线往前推的，主要是两类工作：

闭源/半闭源演进线 ：RT-2、π0 / π0.5 / π0.6 这一类，把 PaLM-E 的"多模态推理"进一步推进到 直接输出动作 的 VLA（Vision-Language-Action）模型。( $arXiv$ $1$ )
开源可落地线 ：Open X-Embodiment / RT-X、Octo、OpenVLA、openpi、SmolVLA、LeRobot 这条线，重点解决 开放数据、开放权重、跨机器人迁移、低成本微调和实际部署。( $arXiv$ $2$ )

如果目标是"参考 PaLM-E 思想，做一个能在真实机器人上跑起来的系统"，不建议从 PaLM-E 论文复现起步。更现实的做法是：

研究/工程平衡最好：OpenVLA 或 OpenVLA-OFT
资源最友好：SmolVLA + LeRobot
想做更强泛化和更像 frontier VLA：openpi
想做通用策略预训练、再高效适配：Octo
做人形/双臂：GR00T N1 这类 open-weight 路线更对口，但更重。( $arXiv$ $3$ )

2. PaLM-E 之后，主流"改进版"到底改进了什么

2.1 从"多模态句子"到"直接动作输出"：RT-2

PaLM-E 的核心是把图像/状态嵌入到 LLM 里，输出高层文本，再交给外部低层策略执行。RT-2 则更进一步：直接把机器人动作离散成 token，让 VLM/LLM 风格模型直接预测动作 token，从而把"感知 → 推理 → 控制"统一得更彻底。RT-2 的核心卖点就是把互联网规模视觉语言知识迁移到机器人控制里。( $arXiv$ $1$ )

相对 PaLM-E 的改进点：

从"高层语言规划器"推进到 端到端 VLA。( $arXiv$ $1$ )
更强调 web knowledge transfer 到动作控制。( $arXiv$ $1$ )
但它仍偏 Google 体系，并不是最友好的开源落地起点。这一点不是论文直接写的，而是结合其开放性现状做的工程判断。( $arXiv$ $1$ )

2.2 从单机器人到跨机器人基础模型：Open X-Embodiment / RT-X

PaLM-E 更偏"统一多模态推理器"，而 Open X-Embodiment / RT-X 这条线解决的是另一个关键问题：机器人数据太分散、平台太异构，怎么做通用预训练 。Open X-Embodiment 把来自 21 家机构、22 种 embodiment 的数据统一成标准格式，并训练了 RT-X 作为跨机器人通用策略。数据规模达到 1M+ real robot trajectories。( $arXiv$ $2$ )

相对 PaLM-E 的改进点：

不只强调多模态输入，而是强调 跨机器人统一数据格式和跨 embodiment 迁移。( $arXiv$ $2$ )
为后来的 Octo、OpenVLA 等开放模型提供了更现实的训练土壤。( $arXiv$ $2$ )

2.3 开源通用策略线：Octo

Octo 是第一批真正把"开放 generalist robot policy"做得比较实用的项目之一。它是一个 open-source generalist robot policy ，基于 Open X-Embodiment 训练，在论文中使用 800k trajectories ，并强调能在 几小时内用标准消费级 GPU 完成对新机器人设置的微调。( $arXiv$ $4$ )

相对 PaLM-E 的改进点：

PaLM-E 偏具身多模态 LLM；Octo 更像 真正面向机器人策略初始化的开放基座。( $arXiv$ $4$ )
更关注 观察/动作接口多样性，适合做"先预训练、后适配"。( $arXiv$ $4$ )
对开源社区更友好，论文就把"可微调、可迁移、适应多平台"作为核心目标。( $arXiv$ $4$ )

2.4 PaLM-E 思想最像的开源 VLA：OpenVLA

如果你想找一个"最像 PaLM-E 思想、但是真正开源且可用 "的路线，OpenVLA 是最值得优先看的 。OpenVLA 是一个 7B 参数、开源、基于 970k real-world robot demonstrations 训练的 Vision-Language-Action 模型，官方项目页和论文都把它定位成开放版通用机器人操作策略。( $arXiv$ $3$ )

它和 PaLM-E 的相似点在于：

都强调 视觉 + 语言 + 控制 的统一；
都建立在大规模预训练语义能力之上；
都希望把互联网语义知识带进机器人控制。

但 OpenVLA 比 PaLM-E 更适合落地，因为它直接面向动作输出，而且有完整开源训练/微调代码。( $arXiv$ $3$ )

OpenVLA 的进一步改进：OpenVLA-OFT

2025 年的 OFT（Optimized Fine-Tuning）工作进一步说明，VLA 的关键不只是 backbone，而是微调 recipe 。这篇论文以 OpenVLA 为基础，提出并验证了更高效的 fine-tuning 方案，使 LIBERO 平均成功率从 76.5% 提升到 97.1% ，动作生成吞吐提升 26×。( $arXiv$ $5$ )

这对工程上非常重要，因为它说明：

PaLM-E → OpenVLA 是从"统一推理"走向"开放动作模型"；
OpenVLA → OpenVLA-OFT 是从"能用"走向"更快、更稳、更适合真实机器人 fine-tune"。( $arXiv$ $5$ )

2.5 更强泛化、更像 frontier VLA：π0 / π0.5 / π0.6

Physical Intelligence 的 π 系列是 PaLM-E 之后非常重要的一条演进线。

π0 ：把预训练 VLM 与 flow matching 动作生成结合，面向 general robot control。( $arXiv$ $6$ )
π0.5 ：强调 open-world generalization，通过 heterogeneous co-training 让机器人在全新家庭环境里做清理、整理这类长程任务。( $arXiv$ $7$ )
π0.6：官方模型卡说明它建立在 π0.5 之上，在 VLM backbone、prompt 设计和训练 recipe 上继续加强。( $website.pi-asset.com$ $8$ )

相对 PaLM-E 的改进点：

从"高层语言规划"转成 直接 VLA 控制。( $arXiv$ $6$ )
从"实验室任务"推进到 更强 open-world generalization。( $Physical Intelligence$ $9$ )
引入 flow-based action generation、层级化设计和更强 co-training。( $arXiv$ $6$ )

更重要的是，π0 已经 open-source 了。Physical Intelligence 官方明确写到 openpi 仓库提供：

π0 基础模型权重和代码
若干在 ALOHA、DROID 等平台上 fine-tune 的检查点
真机和仿真的 inference 示例
针对自有任务/平台的 fine-tuning 代码。( $Physical Intelligence$ $10$ )

所以从"PaLM-E 改进版 + 开源可用"的角度看，openpi 是很强的一档。

2.6 轻量高效线：SmolVLA

如果更注重"我真的能训练/部署起来 "，SmolVLA 很值得关注。SmolVLA 是 Hugging Face 在 2025 年推出的 450M 参数开源 VLA，论文明确说它：

可在 单张 GPU 上训练
可部署在 consumer-grade GPUs 甚至 CPU
引入了 asynchronous inference stack 来提升控制响应。( $arXiv$ $11$ )

这条线不是单纯追求 benchmark 极限，而是直接瞄准 affordable and efficient robotics。它和 PaLM-E 的差别很大：PaLM-E 偏大而统一，SmolVLA 偏小而可部署。( $arXiv$ $11$ )

如果目标是"先把一个语言驱动机械臂跑起来"，SmolVLA 比复现 PaLM-E 现实得多。( $arXiv$ $11$ )

2.7 人形/双臂路线：GR00T N1

如果关注的是 humanoid/bimanual，而不是单臂桌面操作，那 PaLM-E 之后更接近"统一具身 foundation model"的公开路线是 NVIDIA GR00T N1 。官方论文把它定义为一个 open foundation model for generalist humanoid robots ，采用 dual-system architecture ：上层视觉语言模块做理解，下层 diffusion transformer 做实时动作。NVIDIA 研究页面还明确写了 open-weight with permissive licenses。( $arXiv$ $12$ )

这条线比 PaLM-E 更接近"真正的人形具身大模型"，但也明显更重，更适合团队研发，不太适合个人快速起步。( $arXiv$ $12$ )

3. 开源可行方案选型建议

三种场景考虑：

方案 A：最快落地、最稳妥

组合：LeRobot + SmolVLA

这是最推荐的"低门槛起步方案"。

LeRobot 官方文档把自己定位成：提供 models, datasets, and tools for real-world robotics in PyTorch ，并强调 hardware-agnostic，覆盖从低成本机械臂到 humanoid 的统一接口。SmolVLA 又是专门面向 consumer hardware 的轻量 VLA。( $Hugging Face$ $13$ )

适合在这些情况下选它：

你想先把数据采集、回放、训练、推理链路打通
你机器资源有限
你更看重"能跑"和"容易改"

优点

依赖栈最友好
社区最活跃之一
更容易接入低成本机械臂和自采数据。( $GitHub$ $14$ )

缺点

上限通常不如更大的 OpenVLA / π0 路线
复杂长程泛化能力会弱一些。这个判断是结合模型规模和官方定位做的工程推断。( $arXiv$ $11$ )

方案 B：最像"PaLM-E 的开放继承者"

组合：OpenVLA / OpenVLA-OFT

如果想保留"PaLM-E 式的语义理解 + 机器人控制统一"的味道，同时又要开源可做，OpenVLA 是最稳妥的主干。它是 7B VLA，OpenVLA-OFT 则提供了更成熟的 fine-tuning 配方。( $arXiv$ $3$ )

适合你在这些情况下选它：

你希望做语言驱动操作，而不是纯 imitation policy
你要较强的语义泛化
你有一台较强训练机，愿意做 PEFT / LoRA / OFT 风格微调

我会怎么落地：

用 LeRobot 或自有 ROS2 管线采集数据
先用 OpenVLA baseline 跑通
再上 OpenVLA-OFT 做任务适配
最后在你自己的机械臂/相机配置上做 action chunking 和控制频率调优。
这条路径和 OFT 论文想解决的问题高度一致。( $arXiv$ $5$ )

方案 C：追求更强 open-world 泛化

组合：openpi

如果目标不是"快速起 demo"，而是想做更像 frontier lab 的 generalist VLA，那么 openpi 很值得选。Physical Intelligence 官方已经开放了 π0 的代码、权重、微调和多平台示例。( $Physical Intelligence$ $10$ )

适合你在这些情况下选它：

你关心长程任务、复杂环境和 open-world generalization
你愿意接受更复杂的工程栈
你有较强 GPU 资源和更系统的数据采集能力

优点

思路先进，和 π0 / π0.5 论文路线一致
支持 flow-based / FAST 等不同动作建模思想。( $arXiv$ $6$ )

缺点

对工程能力要求更高
真正复现 frontier 效果并不轻松。这个判断来自 openpi 的目标定位和模型复杂度。( $Physical Intelligence$ $10$ )

方案 D：预训练通用策略，再快速适配

组合：Octo

如果更喜欢"先有一个强通用策略初始化，再在自己的平台微调"，Octo 非常合适。论文明确强调它可在几小时内、用消费级 GPU 适配到新传感器和新动作空间。( $arXiv$ $4$ )

适合你在这些情况下选它：

你平台很异构
你不一定非要 VLM 味很重
你更想要一个稳健的 generalist policy 起点

4. 实操建议：不要直接"复现 PaLM-E"，而要"借 PaLM-E 思想"

如果按工程可行性排序，建议：

4.1 个人/小团队首选

LeRobot + SmolVLA

原因是最容易起步，最容易打通真机。( $Hugging Face$ $13$ )

4.2 想做论文和产品都兼顾

OpenVLA + OFT

这是"研究性、开源性、效果、可解释性"最平衡的一档。( $arXiv$ $3$ )

4.3 想往 frontier VLA 深挖

openpi

更接近当前强 generalist policy 的主流 frontier 思路。( $arXiv$ $6$ )

4.4 如果你想做"PaLM-E 风格系统分层"

用下面这个开源分层，而不是硬复现 PaLM-E：

text 复制代码

感知层：DINOv2 / SigLIP / SAM2 / Depth / 机器人状态
    ↓
语义层：Qwen2.5-VL 或小型 VLM（做场景描述、目标确认、失败解释）
    ↓
动作层：OpenVLA / SmolVLA / openpi
    ↓
执行层：ROS2 + MoveIt / 自定义低层控制器
    ↓
反馈层：VLM 检查器 / success detector / replay buffer

方案的好处是：

保留 PaLM-E 的 "多模态语义进主决策链" 思想
但不要求你把所有东西塞进一个超大 closed model 里
更适合渐进式落地。
这部分是工程建议，不是某篇论文的原话。它是基于 PaLM-E、OpenVLA、LeRobot、openpi 这些路线的共同结构抽象出来的。( $arXiv$ $3$ )

参考链接：

$1$ : https://arxiv.org/abs/2307.15818?utm_source=chatgpt.com "RT-2: Vision-Language-Action Models Transfer Web ..."

$2$ : https://arxiv.org/abs/2310.08864?utm_source=chatgpt.com "Open X-Embodiment: Robotic Learning Datasets and RT-X Models"

$3$ : https://arxiv.org/abs/2406.09246?utm_source=chatgpt.com "OpenVLA: An Open-Source Vision-Language-Action Model"

$4$ : https://arxiv.org/abs/2405.12213?utm_source=chatgpt.com "Octo: An Open-Source Generalist Robot Policy"

$5$ : https://arxiv.org/abs/2502.19645?utm_source=chatgpt.com "Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success"

$6$ : https://arxiv.org/abs/2410.24164?utm_source=chatgpt.com "π0π_0π0: A Vision-Language-Action Flow Model for General Robot Control"

$7$ : https://arxiv.org/abs/2504.16054?utm_source=chatgpt.com " $2504.16054$ π0.5π_{0.5}π0.5: a Vision-Language-Action Model ..."

$8$ : https://website.pi-asset.com/pi06star/PI06_model_card.pdf?utm_source=chatgpt.com "π0.6 Model Card"

$9$ : https://www.pi.website/blog/pi05?utm_source=chatgpt.com "A VLA with Open-World Generalization"

$10$ : https://www.pi.website/blog/openpi?utm_source=chatgpt.com "Open Sourcing π0"

$11$ : https://arxiv.org/abs/2506.01844?utm_source=chatgpt.com "SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics"

$12$ : https://arxiv.org/abs/2503.14734?utm_source=chatgpt.com "GR00T N1: An Open Foundation Model for Generalist Humanoid Robots"

$13$ : https://huggingface.co/docs/lerobot/index?utm_source=chatgpt.com "LeRobot"

$14$ : https://github.com/huggingface/lerobot?utm_source=chatgpt.com "LeRobot: Making AI for Robotics more accessible with end- ..."