开源视觉-语言-动作（VLA）机器人项目全景图（截至 2025 年）

这是一份完整、系统、结构清晰的开源 VLA（Vision-Language-Action）机器人项目综述，涵盖主流和新兴的代表性工作，包括 Aloha、OpenVLA、PaLM-E、RT 系列、VoxPoser、RVT、Octo、GR00T 等，并附上开源状态、技术特点、适用场景与资源链接。适合用于研究入门、项目选型或技术调研。

VLA（Vision-Language-Action） 是一种端到端的具身智能范式：输入自然语言指令 + 视觉观测 → 输出机器人动作序列。其目标是实现通用、可泛化、可交互的自主机器人。

1. Aloha：低成本高保真遥操作系统

3. PaLM-E：具身多模态大模型先驱

4. RT 系列（Robotics Transformer）

RT-1（2022）

RT-2（2023）

5. VoxPoser：LLM 生成 3D 操作程序

6. Octo：模块化 VLA 框架

7. GR00T（Generalist Robot 00 Technology）

8. RVT（Robotic Vision Transformer）系列

9. Community Projects（社区驱动）

项目	描述	链接
LeRobot	Hugging Face 推出的轻量级机器人学习库，支持 ACT、VLA 等	https://github.com/huggingface/lerobot
VLA-Finetune	社区对 OpenVLA 的微调工具包	GitHub 搜索 "openvla finetune"
TinyVLA	实验性项目，尝试用 Phi-2 + MobileViT 构建 <1B 参数 VLA	Hugging Face 社区

🔍 选型建议

需求	推荐项目
快速上手 + 真实机器人部署	Aloha + OpenVLA
研究 VLA 架构设计	Octo、OpenVLA
无需训练，靠 LLM 规划	VoxPoser
工业级部署（NVIDIA 生态）	GR00T + Isaac Sim
低成本模仿学习	Aloha + ACT

📚 学习资源

✅ 总结

VLA 正从"实验室原型"走向"开源生态"。以 OpenVLA 和 Aloha 为代表的开源项目，极大降低了研究与应用门槛。未来趋势包括：

机构：Stanford University（Tony Z. Zhao et al.）
核心思想：通过低成本硬件构建高性能双臂遥操作平台，收集高质量人类演示数据，用于训练模仿学习策略（如 ACT）。
技术亮点 ：
- 使用现成机械臂（如 WidowX）、树莓派、游戏手柄等，整机成本 < $20k。
- 支持双臂协同操作（如叠衣服、插花、装盘）。
- 与 ACT（Action Chunking with Transformers） 深度集成，实现长时程动作预测。
是否支持 VLA？
本身是数据采集平台，但可作为 VLA 模型（如 OpenVLA）的训练数据来源。
开源情况 ：✅ 完全开源
- GitHub: https://github.com/tonyzhaozh/aloha
- 包含硬件图纸、ROS 驱动、训练脚本、预训练模型。
典型任务 ：厨房操作、精细装配、日常家务。

2. OpenVLA：首个开源 VLA 基础模型
机构：UC Berkeley + NVIDIA
发布时间：2024 年底
模型架构 ：
- 视觉编码器：DINOv2（ViT-g/14）
- 语言编码器：Flan-T5（Base/Large）
- 动作头：MLP 或 GMM，输出关节速度/位姿。
训练数据 ：
- 融合 9 个机器人平台（Franka、WidowX、Sawyer 等）的 600+ 任务。
- 总计 >100 万条轨迹，涵盖仿真与真实世界。
能力：
- 零样本泛化到新任务/新机器人。
- 支持微调（LoRA）、推理部署（ONNX/TensorRT）。
开源情况 ：✅ 完全开源（模型权重 + 代码 + 数据处理工具）
- GitHub: https://github.com/openvla/openvla
- Hugging Face: https://huggingface.co/openvla
部署示例：可在 Franka Emika 或 Aloha 平台上运行。
机构：Google + TU Berlin
发布时间：2023 年初
模型架构 ：
- 基于 PaLM-540B 大语言模型。
- 融合 RGB-D 图像（通过 ViT 编码）作为额外 token 输入。
- 输出为连续动作（如末端执行器位姿、关节角）。
亮点：
- 首次证明 LLM 可直接控制真实机器人。
- 支持跨任务、跨机器人迁移（如从桌面操作迁移到移动导航）。
开源情况 ：❌ 模型权重未开源（依赖闭源 PaLM），但提供论文与部分示例代码。
- 官网: https://palm-e.github.io/
- 论文: "PaLM-E: An Embodied Multimodal Language Model"
影响：启发了 RT-2、OpenVLA 等后续工作。
Google 提出，使用 EfficientNet + FiLM 调制，输出离散动作 token。
在 13 个机器人上训练，支持 700+ 任务。
❌ 未开源。
基于 PaLM-E 思想，将 VLM（如 PaLI-X）微调为动作预测器。
支持语义泛化（如"把水果放进碗里"，即使训练中没见过"芒果"）。
❌ 未完全开源，但有社区复现（如 HuggingFace 上的 rt2-tiny）。
机构：Columbia University + Google
核心思想：利用 LLM（如 GPT-4）根据场景点云生成可执行的 3D 操作脚本（如"抓取杯子→移动到水龙头下"）。
流程：
1. 输入：语言指令 + 3D 场景重建（如 Open3D）。
2. LLM 生成 Python 式伪代码。
3. 转换为具体轨迹（通过 RMPflow 等运动规划器）。
优势：无需端到端训练，可解释性强。
开源情况 ：✅
- GitHub: https://github.com/vimalabs/VoxPoser
适用场景：一次性任务、少样本设置。
机构：Google DeepMind
特点：
- 统一接口支持多种视觉编码器（ResNet、ViT）、语言模型（T5）、动作头。
- 支持多摄像头、多任务、多机器人训练。
- 提供预训练 checkpoint（在大规模内部数据集上训练）。
开源情况 ：✅（代码开源，部分模型需申请）
- GitHub: https://github.com/octo-models/octo
- Colab 示例丰富，易于微调。
定位：研究友好型 VLA 工具箱。
机构：NVIDIA
发布时间：2024 年 GTC
目标：打造"机器人基础模型即服务"（FaaS）。
技术栈 ：
- 基于 VIMA、OpenVLA 等改进。
- 支持仿真训练（Isaac Sim）→ 真实部署（Jetson Orin）。
- 提供 GR00T NIM 微服务，供开发者调用。
开源情况 ：⚠️ 部分开源（SDK 和示例），模型需通过 NVIDIA NGC 获取。
- 官网: https://www.nvidia.com/en-us/ai-data-science/gr00t/
生态整合：与 Isaac Gym、ROS 2 深度集成。
机构：University of Oxford
版本：RVT、RVT-2
特点：
- 专注视觉为中心的动作预测。
- 引入 3D 旋转等变注意力机制，提升空间理解。
- 虽非严格 VLA（早期版本无语言输入），但 RVT-2 已支持语言条件。
开源情况 ：✅
- GitHub: https://github.com/oxwhirl/rvt
适用场景：需要高精度 3D 操作的任务（如插孔、拧螺丝）。
论文综述："A Survey on Vision-Language-Action Models for Robotics" (2025)
教程：Hugging Face LeRobot 文档、OpenVLA 官方 Colab
数据集：BridgeData V2、Open X-Embodiment（包含 Aloha 数据）
更小、更快的 VLA（<1B 参数，实时推理）
多模态记忆（长期任务规划）
人机协作闭环（在线学习 + 反馈）