PaLM-E 本身更像"具身多模态 LLM"的起点,不是今天最适合直接落地的开源方案。
它的重要性在于提出了把图像、状态等连续观测直接嵌入 LLM token 流里,用一个统一模型做语言、视觉和高层机器人推理;但后续真正把这条路线往前推的,主要是两类工作:
- 闭源/半闭源演进线 :RT-2、π0 / π0.5 / π0.6 这一类,把 PaLM-E 的"多模态推理"进一步推进到 直接输出动作 的 VLA(Vision-Language-Action)模型。([arXiv][1])
- 开源可落地线 :Open X-Embodiment / RT-X、Octo、OpenVLA、openpi、SmolVLA、LeRobot 这条线,重点解决 开放数据、开放权重、跨机器人迁移、低成本微调和实际部署。([arXiv][2])
如果目标是"参考 PaLM-E 思想,做一个能在真实机器人上跑起来的系统",不建议从 PaLM-E 论文复现起步。更现实的做法是:
- 研究/工程平衡最好:OpenVLA 或 OpenVLA-OFT
- 资源最友好:SmolVLA + LeRobot
- 想做更强泛化和更像 frontier VLA:openpi
- 想做通用策略预训练、再高效适配:Octo
- 做人形/双臂:GR00T N1 这类 open-weight 路线更对口,但更重。([arXiv][3])
2. PaLM-E 之后,主流"改进版"到底改进了什么
2.1 从"多模态句子"到"直接动作输出":RT-2
PaLM-E 的核心是把图像/状态嵌入到 LLM 里,输出高层文本,再交给外部低层策略执行。RT-2 则更进一步:直接把机器人动作离散成 token,让 VLM/LLM 风格模型直接预测动作 token,从而把"感知 → 推理 → 控制"统一得更彻底。RT-2 的核心卖点就是把互联网规模视觉语言知识迁移到机器人控制里。([arXiv][1])
相对 PaLM-E 的改进点:
- 从"高层语言规划器"推进到 端到端 VLA。([arXiv][1])
- 更强调 web knowledge transfer 到动作控制。([arXiv][1])
- 但它仍偏 Google 体系,并不是最友好的开源落地起点。这一点不是论文直接写的,而是结合其开放性现状做的工程判断。([arXiv][1])
2.2 从单机器人到跨机器人基础模型:Open X-Embodiment / RT-X
PaLM-E 更偏"统一多模态推理器",而 Open X-Embodiment / RT-X 这条线解决的是另一个关键问题:机器人数据太分散、平台太异构,怎么做通用预训练 。Open X-Embodiment 把来自 21 家机构、22 种 embodiment 的数据统一成标准格式,并训练了 RT-X 作为跨机器人通用策略。数据规模达到 1M+ real robot trajectories。([arXiv][2])
相对 PaLM-E 的改进点:
- 不只强调多模态输入,而是强调 跨机器人统一数据格式和跨 embodiment 迁移。([arXiv][2])
- 为后来的 Octo、OpenVLA 等开放模型提供了更现实的训练土壤。([arXiv][2])
2.3 开源通用策略线:Octo
Octo 是第一批真正把"开放 generalist robot policy"做得比较实用的项目之一。它是一个 open-source generalist robot policy ,基于 Open X-Embodiment 训练,在论文中使用 800k trajectories ,并强调能在 几小时内用标准消费级 GPU 完成对新机器人设置的微调。([arXiv][4])
相对 PaLM-E 的改进点:
- PaLM-E 偏具身多模态 LLM;Octo 更像 真正面向机器人策略初始化的开放基座。([arXiv][4])
- 更关注 观察/动作接口多样性,适合做"先预训练、后适配"。([arXiv][4])
- 对开源社区更友好,论文就把"可微调、可迁移、适应多平台"作为核心目标。([arXiv][4])
2.4 PaLM-E 思想最像的开源 VLA:OpenVLA
如果你想找一个"最像 PaLM-E 思想、但是真正开源且可用 "的路线,OpenVLA 是最值得优先看的 。OpenVLA 是一个 7B 参数、开源、基于 970k real-world robot demonstrations 训练的 Vision-Language-Action 模型,官方项目页和论文都把它定位成开放版通用机器人操作策略。([arXiv][3])
它和 PaLM-E 的相似点在于:
- 都强调 视觉 + 语言 + 控制 的统一;
- 都建立在大规模预训练语义能力之上;
- 都希望把互联网语义知识带进机器人控制。
但 OpenVLA 比 PaLM-E 更适合落地,因为它直接面向动作输出,而且有完整开源训练/微调代码。([arXiv][3])
OpenVLA 的进一步改进:OpenVLA-OFT
2025 年的 OFT(Optimized Fine-Tuning)工作进一步说明,VLA 的关键不只是 backbone,而是微调 recipe 。这篇论文以 OpenVLA 为基础,提出并验证了更高效的 fine-tuning 方案,使 LIBERO 平均成功率从 76.5% 提升到 97.1% ,动作生成吞吐提升 26×。([arXiv][5])
这对工程上非常重要,因为它说明:
- PaLM-E → OpenVLA 是从"统一推理"走向"开放动作模型";
- OpenVLA → OpenVLA-OFT 是从"能用"走向"更快、更稳、更适合真实机器人 fine-tune"。([arXiv][5])
2.5 更强泛化、更像 frontier VLA:π0 / π0.5 / π0.6
Physical Intelligence 的 π 系列是 PaLM-E 之后非常重要的一条演进线。
- π0 :把预训练 VLM 与 flow matching 动作生成结合,面向 general robot control。([arXiv][6])
- π0.5 :强调 open-world generalization,通过 heterogeneous co-training 让机器人在全新家庭环境里做清理、整理这类长程任务。([arXiv][7])
- π0.6:官方模型卡说明它建立在 π0.5 之上,在 VLM backbone、prompt 设计和训练 recipe 上继续加强。([website.pi-asset.com][8])
相对 PaLM-E 的改进点:
- 从"高层语言规划"转成 直接 VLA 控制。([arXiv][6])
- 从"实验室任务"推进到 更强 open-world generalization。([Physical Intelligence][9])
- 引入 flow-based action generation、层级化设计和更强 co-training。([arXiv][6])
更重要的是,π0 已经 open-source 了。Physical Intelligence 官方明确写到 openpi 仓库提供:
- π0 基础模型权重和代码
- 若干在 ALOHA、DROID 等平台上 fine-tune 的检查点
- 真机和仿真的 inference 示例
- 针对自有任务/平台的 fine-tuning 代码。([Physical Intelligence][10])
所以从"PaLM-E 改进版 + 开源可用"的角度看,openpi 是很强的一档。
2.6 轻量高效线:SmolVLA
如果更注重"我真的能训练/部署起来 ",SmolVLA 很值得关注。SmolVLA 是 Hugging Face 在 2025 年推出的 450M 参数开源 VLA,论文明确说它:
- 可在 单张 GPU 上训练
- 可部署在 consumer-grade GPUs 甚至 CPU
- 引入了 asynchronous inference stack 来提升控制响应。([arXiv][11])
这条线不是单纯追求 benchmark 极限,而是直接瞄准 affordable and efficient robotics。它和 PaLM-E 的差别很大:PaLM-E 偏大而统一,SmolVLA 偏小而可部署。([arXiv][11])
如果目标是"先把一个语言驱动机械臂跑起来",SmolVLA 比复现 PaLM-E 现实得多。([arXiv][11])
2.7 人形/双臂路线:GR00T N1
如果关注的是 humanoid/bimanual,而不是单臂桌面操作,那 PaLM-E 之后更接近"统一具身 foundation model"的公开路线是 NVIDIA GR00T N1 。官方论文把它定义为一个 open foundation model for generalist humanoid robots ,采用 dual-system architecture :上层视觉语言模块做理解,下层 diffusion transformer 做实时动作。NVIDIA 研究页面还明确写了 open-weight with permissive licenses。([arXiv][12])
这条线比 PaLM-E 更接近"真正的人形具身大模型",但也明显更重,更适合团队研发,不太适合个人快速起步。([arXiv][12])
3. 开源可行方案选型建议
三种场景考虑:
方案 A:最快落地、最稳妥
组合:LeRobot + SmolVLA
这是最推荐的"低门槛起步方案"。
LeRobot 官方文档把自己定位成:提供 models, datasets, and tools for real-world robotics in PyTorch ,并强调 hardware-agnostic,覆盖从低成本机械臂到 humanoid 的统一接口。SmolVLA 又是专门面向 consumer hardware 的轻量 VLA。([Hugging Face][13])
适合在这些情况下选它:
- 你想先把数据采集、回放、训练、推理链路打通
- 你机器资源有限
- 你更看重"能跑"和"容易改"
优点
- 依赖栈最友好
- 社区最活跃之一
- 更容易接入低成本机械臂和自采数据。([GitHub][14])
缺点
- 上限通常不如更大的 OpenVLA / π0 路线
- 复杂长程泛化能力会弱一些。这个判断是结合模型规模和官方定位做的工程推断。([arXiv][11])
方案 B:最像"PaLM-E 的开放继承者"
组合:OpenVLA / OpenVLA-OFT
如果想保留"PaLM-E 式的语义理解 + 机器人控制统一"的味道,同时又要开源可做,OpenVLA 是最稳妥的主干。它是 7B VLA,OpenVLA-OFT 则提供了更成熟的 fine-tuning 配方。([arXiv][3])
适合你在这些情况下选它:
- 你希望做语言驱动操作,而不是纯 imitation policy
- 你要较强的语义泛化
- 你有一台较强训练机,愿意做 PEFT / LoRA / OFT 风格微调
我会怎么落地:
- 用 LeRobot 或自有 ROS2 管线采集数据
- 先用 OpenVLA baseline 跑通
- 再上 OpenVLA-OFT 做任务适配
- 最后在你自己的机械臂/相机配置上做 action chunking 和控制频率调优。
这条路径和 OFT 论文想解决的问题高度一致。([arXiv][5])
方案 C:追求更强 open-world 泛化
组合:openpi
如果目标不是"快速起 demo",而是想做更像 frontier lab 的 generalist VLA,那么 openpi 很值得选。Physical Intelligence 官方已经开放了 π0 的代码、权重、微调和多平台示例。([Physical Intelligence][10])
适合你在这些情况下选它:
- 你关心长程任务、复杂环境和 open-world generalization
- 你愿意接受更复杂的工程栈
- 你有较强 GPU 资源和更系统的数据采集能力
优点
- 思路先进,和 π0 / π0.5 论文路线一致
- 支持 flow-based / FAST 等不同动作建模思想。([arXiv][6])
缺点
- 对工程能力要求更高
- 真正复现 frontier 效果并不轻松。这个判断来自 openpi 的目标定位和模型复杂度。([Physical Intelligence][10])
方案 D:预训练通用策略,再快速适配
组合:Octo
如果更喜欢"先有一个强通用策略初始化,再在自己的平台微调",Octo 非常合适。论文明确强调它可在几小时内、用消费级 GPU 适配到新传感器和新动作空间。([arXiv][4])
适合你在这些情况下选它:
- 你平台很异构
- 你不一定非要 VLM 味很重
- 你更想要一个稳健的 generalist policy 起点
4. 实操建议:不要直接"复现 PaLM-E",而要"借 PaLM-E 思想"
如果按工程可行性排序,建议:
4.1 个人/小团队首选
LeRobot + SmolVLA
原因是最容易起步,最容易打通真机。([Hugging Face][13])
4.2 想做论文和产品都兼顾
OpenVLA + OFT
这是"研究性、开源性、效果、可解释性"最平衡的一档。([arXiv][3])
4.3 想往 frontier VLA 深挖
openpi
更接近当前强 generalist policy 的主流 frontier 思路。([arXiv][6])
4.4 如果你想做"PaLM-E 风格系统分层"
用下面这个开源分层,而不是硬复现 PaLM-E:
text
感知层:DINOv2 / SigLIP / SAM2 / Depth / 机器人状态
↓
语义层:Qwen2.5-VL 或小型 VLM(做场景描述、目标确认、失败解释)
↓
动作层:OpenVLA / SmolVLA / openpi
↓
执行层:ROS2 + MoveIt / 自定义低层控制器
↓
反馈层:VLM 检查器 / success detector / replay buffer
方案的好处是:
- 保留 PaLM-E 的 "多模态语义进主决策链" 思想
- 但不要求你把所有东西塞进一个超大 closed model 里
- 更适合渐进式落地。
这部分是工程建议,不是某篇论文的原话。它是基于 PaLM-E、OpenVLA、LeRobot、openpi 这些路线的共同结构抽象出来的。([arXiv][3])
参考链接:
1\]: https://arxiv.org/abs/2307.15818?utm_source=chatgpt.com "RT-2: Vision-Language-Action Models Transfer Web ..." \[2\]: https://arxiv.org/abs/2310.08864?utm_source=chatgpt.com "Open X-Embodiment: Robotic Learning Datasets and RT-X Models" \[3\]: https://arxiv.org/abs/2406.09246?utm_source=chatgpt.com "OpenVLA: An Open-Source Vision-Language-Action Model" \[4\]: https://arxiv.org/abs/2405.12213?utm_source=chatgpt.com "Octo: An Open-Source Generalist Robot Policy" \[5\]: https://arxiv.org/abs/2502.19645?utm_source=chatgpt.com "Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success" \[6\]: https://arxiv.org/abs/2410.24164?utm_source=chatgpt.com "π0π_0π0: A Vision-Language-Action Flow Model for General Robot Control" \[7\]: https://arxiv.org/abs/2504.16054?utm_source=chatgpt.com "\[2504.16054\] π0.5π_{0.5}π0.5: a Vision-Language-Action Model ..." \[8\]: https://website.pi-asset.com/pi06star/PI06_model_card.pdf?utm_source=chatgpt.com "π0.6 Model Card" \[9\]: https://www.pi.website/blog/pi05?utm_source=chatgpt.com "A VLA with Open-World Generalization" \[10\]: https://www.pi.website/blog/openpi?utm_source=chatgpt.com "Open Sourcing π0" \[11\]: https://arxiv.org/abs/2506.01844?utm_source=chatgpt.com "SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics" \[12\]: https://arxiv.org/abs/2503.14734?utm_source=chatgpt.com "GR00T N1: An Open Foundation Model for Generalist Humanoid Robots" \[13\]: https://huggingface.co/docs/lerobot/index?utm_source=chatgpt.com "LeRobot" \[14\]: https://github.com/huggingface/lerobot?utm_source=chatgpt.com "LeRobot: Making AI for Robotics more accessible with end- ..."