PaLM-E 的改进版本及开源可行方案综述及讨论

PaLM-E 本身更像"具身多模态 LLM"的起点,不是今天最适合直接落地的开源方案。

它的重要性在于提出了把图像、状态等连续观测直接嵌入 LLM token 流里,用一个统一模型做语言、视觉和高层机器人推理;但后续真正把这条路线往前推的,主要是两类工作:

  • 闭源/半闭源演进线 :RT-2、π0 / π0.5 / π0.6 这一类,把 PaLM-E 的"多模态推理"进一步推进到 直接输出动作 的 VLA(Vision-Language-Action)模型。([arXiv][1])
  • 开源可落地线 :Open X-Embodiment / RT-X、Octo、OpenVLA、openpi、SmolVLA、LeRobot 这条线,重点解决 开放数据、开放权重、跨机器人迁移、低成本微调和实际部署。([arXiv][2])

如果目标是"参考 PaLM-E 思想,做一个能在真实机器人上跑起来的系统",不建议从 PaLM-E 论文复现起步。更现实的做法是:

  • 研究/工程平衡最好:OpenVLA 或 OpenVLA-OFT
  • 资源最友好:SmolVLA + LeRobot
  • 想做更强泛化和更像 frontier VLA:openpi
  • 想做通用策略预训练、再高效适配:Octo
  • 做人形/双臂:GR00T N1 这类 open-weight 路线更对口,但更重。([arXiv][3])

2. PaLM-E 之后,主流"改进版"到底改进了什么

2.1 从"多模态句子"到"直接动作输出":RT-2

PaLM-E 的核心是把图像/状态嵌入到 LLM 里,输出高层文本,再交给外部低层策略执行。RT-2 则更进一步:直接把机器人动作离散成 token,让 VLM/LLM 风格模型直接预测动作 token,从而把"感知 → 推理 → 控制"统一得更彻底。RT-2 的核心卖点就是把互联网规模视觉语言知识迁移到机器人控制里。([arXiv][1])

相对 PaLM-E 的改进点:

  • 从"高层语言规划器"推进到 端到端 VLA。([arXiv][1])
  • 更强调 web knowledge transfer 到动作控制。([arXiv][1])
  • 但它仍偏 Google 体系,并不是最友好的开源落地起点。这一点不是论文直接写的,而是结合其开放性现状做的工程判断。([arXiv][1])

2.2 从单机器人到跨机器人基础模型:Open X-Embodiment / RT-X

PaLM-E 更偏"统一多模态推理器",而 Open X-Embodiment / RT-X 这条线解决的是另一个关键问题:机器人数据太分散、平台太异构,怎么做通用预训练 。Open X-Embodiment 把来自 21 家机构、22 种 embodiment 的数据统一成标准格式,并训练了 RT-X 作为跨机器人通用策略。数据规模达到 1M+ real robot trajectories。([arXiv][2])

相对 PaLM-E 的改进点:

  • 不只强调多模态输入,而是强调 跨机器人统一数据格式和跨 embodiment 迁移。([arXiv][2])
  • 为后来的 Octo、OpenVLA 等开放模型提供了更现实的训练土壤。([arXiv][2])

2.3 开源通用策略线:Octo

Octo 是第一批真正把"开放 generalist robot policy"做得比较实用的项目之一。它是一个 open-source generalist robot policy ,基于 Open X-Embodiment 训练,在论文中使用 800k trajectories ,并强调能在 几小时内用标准消费级 GPU 完成对新机器人设置的微调。([arXiv][4])

相对 PaLM-E 的改进点:

  • PaLM-E 偏具身多模态 LLM;Octo 更像 真正面向机器人策略初始化的开放基座。([arXiv][4])
  • 更关注 观察/动作接口多样性,适合做"先预训练、后适配"。([arXiv][4])
  • 对开源社区更友好,论文就把"可微调、可迁移、适应多平台"作为核心目标。([arXiv][4])

2.4 PaLM-E 思想最像的开源 VLA:OpenVLA

如果你想找一个"最像 PaLM-E 思想、但是真正开源且可用 "的路线,OpenVLA 是最值得优先看的 。OpenVLA 是一个 7B 参数、开源、基于 970k real-world robot demonstrations 训练的 Vision-Language-Action 模型,官方项目页和论文都把它定位成开放版通用机器人操作策略。([arXiv][3])

它和 PaLM-E 的相似点在于:

  • 都强调 视觉 + 语言 + 控制 的统一;
  • 都建立在大规模预训练语义能力之上;
  • 都希望把互联网语义知识带进机器人控制。

但 OpenVLA 比 PaLM-E 更适合落地,因为它直接面向动作输出,而且有完整开源训练/微调代码。([arXiv][3])

OpenVLA 的进一步改进:OpenVLA-OFT

2025 年的 OFT(Optimized Fine-Tuning)工作进一步说明,VLA 的关键不只是 backbone,而是微调 recipe 。这篇论文以 OpenVLA 为基础,提出并验证了更高效的 fine-tuning 方案,使 LIBERO 平均成功率从 76.5% 提升到 97.1% ,动作生成吞吐提升 26×。([arXiv][5])

这对工程上非常重要,因为它说明:

  • PaLM-E → OpenVLA 是从"统一推理"走向"开放动作模型";
  • OpenVLA → OpenVLA-OFT 是从"能用"走向"更快、更稳、更适合真实机器人 fine-tune"。([arXiv][5])

2.5 更强泛化、更像 frontier VLA:π0 / π0.5 / π0.6

Physical Intelligence 的 π 系列是 PaLM-E 之后非常重要的一条演进线。

  • π0 :把预训练 VLM 与 flow matching 动作生成结合,面向 general robot control。([arXiv][6])
  • π0.5 :强调 open-world generalization,通过 heterogeneous co-training 让机器人在全新家庭环境里做清理、整理这类长程任务。([arXiv][7])
  • π0.6:官方模型卡说明它建立在 π0.5 之上,在 VLM backbone、prompt 设计和训练 recipe 上继续加强。([website.pi-asset.com][8])

相对 PaLM-E 的改进点:

  • 从"高层语言规划"转成 直接 VLA 控制。([arXiv][6])
  • 从"实验室任务"推进到 更强 open-world generalization。([Physical Intelligence][9])
  • 引入 flow-based action generation、层级化设计和更强 co-training。([arXiv][6])

更重要的是,π0 已经 open-source 了。Physical Intelligence 官方明确写到 openpi 仓库提供:

  • π0 基础模型权重和代码
  • 若干在 ALOHA、DROID 等平台上 fine-tune 的检查点
  • 真机和仿真的 inference 示例
  • 针对自有任务/平台的 fine-tuning 代码。([Physical Intelligence][10])

所以从"PaLM-E 改进版 + 开源可用"的角度看,openpi 是很强的一档


2.6 轻量高效线:SmolVLA

如果更注重"我真的能训练/部署起来 ",SmolVLA 很值得关注。SmolVLA 是 Hugging Face 在 2025 年推出的 450M 参数开源 VLA,论文明确说它:

  • 可在 单张 GPU 上训练
  • 可部署在 consumer-grade GPUs 甚至 CPU
  • 引入了 asynchronous inference stack 来提升控制响应。([arXiv][11])

这条线不是单纯追求 benchmark 极限,而是直接瞄准 affordable and efficient robotics。它和 PaLM-E 的差别很大:PaLM-E 偏大而统一,SmolVLA 偏小而可部署。([arXiv][11])

如果目标是"先把一个语言驱动机械臂跑起来",SmolVLA 比复现 PaLM-E 现实得多。([arXiv][11])


2.7 人形/双臂路线:GR00T N1

如果关注的是 humanoid/bimanual,而不是单臂桌面操作,那 PaLM-E 之后更接近"统一具身 foundation model"的公开路线是 NVIDIA GR00T N1 。官方论文把它定义为一个 open foundation model for generalist humanoid robots ,采用 dual-system architecture :上层视觉语言模块做理解,下层 diffusion transformer 做实时动作。NVIDIA 研究页面还明确写了 open-weight with permissive licenses。([arXiv][12])

这条线比 PaLM-E 更接近"真正的人形具身大模型",但也明显更重,更适合团队研发,不太适合个人快速起步。([arXiv][12])


3. 开源可行方案选型建议

三种场景考虑:

方案 A:最快落地、最稳妥

组合:LeRobot + SmolVLA

这是最推荐的"低门槛起步方案"。

LeRobot 官方文档把自己定位成:提供 models, datasets, and tools for real-world robotics in PyTorch ,并强调 hardware-agnostic,覆盖从低成本机械臂到 humanoid 的统一接口。SmolVLA 又是专门面向 consumer hardware 的轻量 VLA。([Hugging Face][13])

适合在这些情况下选它:

  • 你想先把数据采集、回放、训练、推理链路打通
  • 你机器资源有限
  • 你更看重"能跑"和"容易改"

优点

  • 依赖栈最友好
  • 社区最活跃之一
  • 更容易接入低成本机械臂和自采数据。([GitHub][14])

缺点

  • 上限通常不如更大的 OpenVLA / π0 路线
  • 复杂长程泛化能力会弱一些。这个判断是结合模型规模和官方定位做的工程推断。([arXiv][11])

方案 B:最像"PaLM-E 的开放继承者"

组合:OpenVLA / OpenVLA-OFT

如果想保留"PaLM-E 式的语义理解 + 机器人控制统一"的味道,同时又要开源可做,OpenVLA 是最稳妥的主干。它是 7B VLA,OpenVLA-OFT 则提供了更成熟的 fine-tuning 配方。([arXiv][3])

适合你在这些情况下选它:

  • 你希望做语言驱动操作,而不是纯 imitation policy
  • 你要较强的语义泛化
  • 你有一台较强训练机,愿意做 PEFT / LoRA / OFT 风格微调

我会怎么落地:

  1. 用 LeRobot 或自有 ROS2 管线采集数据
  2. 先用 OpenVLA baseline 跑通
  3. 再上 OpenVLA-OFT 做任务适配
  4. 最后在你自己的机械臂/相机配置上做 action chunking 和控制频率调优。
    这条路径和 OFT 论文想解决的问题高度一致。([arXiv][5])

方案 C:追求更强 open-world 泛化

组合:openpi

如果目标不是"快速起 demo",而是想做更像 frontier lab 的 generalist VLA,那么 openpi 很值得选。Physical Intelligence 官方已经开放了 π0 的代码、权重、微调和多平台示例。([Physical Intelligence][10])

适合你在这些情况下选它:

  • 你关心长程任务、复杂环境和 open-world generalization
  • 你愿意接受更复杂的工程栈
  • 你有较强 GPU 资源和更系统的数据采集能力

优点

  • 思路先进,和 π0 / π0.5 论文路线一致
  • 支持 flow-based / FAST 等不同动作建模思想。([arXiv][6])

缺点

  • 对工程能力要求更高
  • 真正复现 frontier 效果并不轻松。这个判断来自 openpi 的目标定位和模型复杂度。([Physical Intelligence][10])

方案 D:预训练通用策略,再快速适配

组合:Octo

如果更喜欢"先有一个强通用策略初始化,再在自己的平台微调",Octo 非常合适。论文明确强调它可在几小时内、用消费级 GPU 适配到新传感器和新动作空间。([arXiv][4])

适合你在这些情况下选它:

  • 你平台很异构
  • 你不一定非要 VLM 味很重
  • 你更想要一个稳健的 generalist policy 起点

4. 实操建议:不要直接"复现 PaLM-E",而要"借 PaLM-E 思想"

如果按工程可行性排序,建议:

4.1 个人/小团队首选

LeRobot + SmolVLA

原因是最容易起步,最容易打通真机。([Hugging Face][13])

4.2 想做论文和产品都兼顾

OpenVLA + OFT

这是"研究性、开源性、效果、可解释性"最平衡的一档。([arXiv][3])

4.3 想往 frontier VLA 深挖

openpi

更接近当前强 generalist policy 的主流 frontier 思路。([arXiv][6])

4.4 如果你想做"PaLM-E 风格系统分层"

用下面这个开源分层,而不是硬复现 PaLM-E:

text 复制代码
感知层:DINOv2 / SigLIP / SAM2 / Depth / 机器人状态
    ↓
语义层:Qwen2.5-VL 或小型 VLM(做场景描述、目标确认、失败解释)
    ↓
动作层:OpenVLA / SmolVLA / openpi
    ↓
执行层:ROS2 + MoveIt / 自定义低层控制器
    ↓
反馈层:VLM 检查器 / success detector / replay buffer

方案的好处是:

  • 保留 PaLM-E 的 "多模态语义进主决策链" 思想
  • 但不要求你把所有东西塞进一个超大 closed model 里
  • 更适合渐进式落地。
    这部分是工程建议,不是某篇论文的原话。它是基于 PaLM-E、OpenVLA、LeRobot、openpi 这些路线的共同结构抽象出来的。([arXiv][3])

参考链接:

1\]: https://arxiv.org/abs/2307.15818?utm_source=chatgpt.com "RT-2: Vision-Language-Action Models Transfer Web ..." \[2\]: https://arxiv.org/abs/2310.08864?utm_source=chatgpt.com "Open X-Embodiment: Robotic Learning Datasets and RT-X Models" \[3\]: https://arxiv.org/abs/2406.09246?utm_source=chatgpt.com "OpenVLA: An Open-Source Vision-Language-Action Model" \[4\]: https://arxiv.org/abs/2405.12213?utm_source=chatgpt.com "Octo: An Open-Source Generalist Robot Policy" \[5\]: https://arxiv.org/abs/2502.19645?utm_source=chatgpt.com "Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success" \[6\]: https://arxiv.org/abs/2410.24164?utm_source=chatgpt.com "π0π_0π0: A Vision-Language-Action Flow Model for General Robot Control" \[7\]: https://arxiv.org/abs/2504.16054?utm_source=chatgpt.com "\[2504.16054\] π0.5π_{0.5}π0.5: a Vision-Language-Action Model ..." \[8\]: https://website.pi-asset.com/pi06star/PI06_model_card.pdf?utm_source=chatgpt.com "π0.6 Model Card" \[9\]: https://www.pi.website/blog/pi05?utm_source=chatgpt.com "A VLA with Open-World Generalization" \[10\]: https://www.pi.website/blog/openpi?utm_source=chatgpt.com "Open Sourcing π0" \[11\]: https://arxiv.org/abs/2506.01844?utm_source=chatgpt.com "SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics" \[12\]: https://arxiv.org/abs/2503.14734?utm_source=chatgpt.com "GR00T N1: An Open Foundation Model for Generalist Humanoid Robots" \[13\]: https://huggingface.co/docs/lerobot/index?utm_source=chatgpt.com "LeRobot" \[14\]: https://github.com/huggingface/lerobot?utm_source=chatgpt.com "LeRobot: Making AI for Robotics more accessible with end- ..."

相关推荐
OpenBayes2 小时前
强化文字渲染与海报排版:百度开源文生图模型 ERNIE-Image-Turbo;告别大模型「遗忘」:微软 OpenMementos 上下文压缩训练数据集上线
人工智能·深度学习·百度·语言模型·微软·开源
Hui_AI7202 小时前
保险条款NLP解析与知识图谱搭建:让AI准确理解保险产品的技术方案
开发语言·人工智能·python·算法·自然语言处理·开源·开源软件
zhangfeng11335 小时前
多台服务器同时训练llamfactory 大语言模型 国家超算中心 Slurm 是目前全球最主流的开源、高性能计算(HPC)集群资源管理与作业调度系统
服务器·语言模型·开源
梦梦代码精6 小时前
从工程视角拆解 BuildingAI:一个企业级开源智能体平台的架构设计与实现
人工智能·gitee·开源·github
搬砖的前端12 小时前
AI编辑器开源主模型搭配本地模型辅助对标GPT5.2/GPT5.4/Claude4.6(前端开发专属)
人工智能·开源·claude·mcp·trae·qwen3.6·ops4.6
lularible19 小时前
PTP协议精讲(2.18):遵循规则的艺术——Profile与一致性要求深度解析
网络·网络协议·开源·嵌入式·ptp
AtOR CUES20 小时前
开源企业级报表系统SpringReport
开源
OpenTiny社区20 小时前
电商系统集成GenUI SDK实操指南
前端·开源·ai编程
Are_You_Okkk_20 小时前
非结构化文档破局:BeeParser+PandaWiki赋能车企技术资料规范化管理
大数据·人工智能·开源