开源视觉-语言-动作(VLA)机器人项目全景图(截至 2025 年)

这是一份完整、系统、结构清晰的开源 VLA(Vision-Language-Action)机器人项目综述,涵盖主流和新兴的代表性工作,包括 Aloha、OpenVLA、PaLM-E、RT 系列、VoxPoser、RVT、Octo、GR00T 等,并附上开源状态、技术特点、适用场景与资源链接。适合用于研究入门、项目选型或技术调研。

VLA(Vision-Language-Action) 是一种端到端的具身智能范式:输入自然语言指令 + 视觉观测 → 输出机器人动作序列。其目标是实现通用、可泛化、可交互的自主机器人。


1. Aloha:低成本高保真遥操作系统


3. PaLM-E:具身多模态大模型先驱


4. RT 系列(Robotics Transformer)

RT-1(2022)

RT-2(2023)


5. VoxPoser:LLM 生成 3D 操作程序


6. Octo:模块化 VLA 框架


7. GR00T(Generalist Robot 00 Technology)


8. RVT(Robotic Vision Transformer)系列


9. Community Projects(社区驱动)

项目 描述 链接
LeRobot Hugging Face 推出的轻量级机器人学习库,支持 ACT、VLA 等 https://github.com/huggingface/lerobot
VLA-Finetune 社区对 OpenVLA 的微调工具包 GitHub 搜索 "openvla finetune"
TinyVLA 实验性项目,尝试用 Phi-2 + MobileViT 构建 <1B 参数 VLA Hugging Face 社区

🔍 选型建议

需求 推荐项目
快速上手 + 真实机器人部署 Aloha + OpenVLA
研究 VLA 架构设计 Octo、OpenVLA
无需训练,靠 LLM 规划 VoxPoser
工业级部署(NVIDIA 生态) GR00T + Isaac Sim
低成本模仿学习 Aloha + ACT

📚 学习资源


✅ 总结

VLA 正从"实验室原型"走向"开源生态"。以 OpenVLAAloha 为代表的开源项目,极大降低了研究与应用门槛。未来趋势包括:

  • 机构:Stanford University(Tony Z. Zhao et al.)

  • 核心思想:通过低成本硬件构建高性能双臂遥操作平台,收集高质量人类演示数据,用于训练模仿学习策略(如 ACT)。

  • 技术亮点

    • 使用现成机械臂(如 WidowX)、树莓派、游戏手柄等,整机成本 < $20k。
    • 支持双臂协同操作(如叠衣服、插花、装盘)。
    • ACT(Action Chunking with Transformers) 深度集成,实现长时程动作预测。
  • 是否支持 VLA?
    本身是数据采集平台,但可作为 VLA 模型(如 OpenVLA)的训练数据来源。

  • 开源情况 :✅ 完全开源

  • 典型任务 :厨房操作、精细装配、日常家务。


    2. OpenVLA:首个开源 VLA 基础模型

  • 机构:UC Berkeley + NVIDIA

  • 发布时间:2024 年底

  • 模型架构

    • 视觉编码器:DINOv2(ViT-g/14)
    • 语言编码器:Flan-T5(Base/Large)
    • 动作头:MLP 或 GMM,输出关节速度/位姿。
  • 训练数据

    • 融合 9 个机器人平台(Franka、WidowX、Sawyer 等)的 600+ 任务。
    • 总计 >100 万条轨迹,涵盖仿真与真实世界。
  • 能力

    • 零样本泛化到新任务/新机器人。
    • 支持微调(LoRA)、推理部署(ONNX/TensorRT)。
  • 开源情况 :✅ 完全开源(模型权重 + 代码 + 数据处理工具)

  • 部署示例:可在 Franka Emika 或 Aloha 平台上运行。

  • 机构:Google + TU Berlin

  • 发布时间:2023 年初

  • 模型架构

    • 基于 PaLM-540B 大语言模型。
    • 融合 RGB-D 图像(通过 ViT 编码)作为额外 token 输入。
    • 输出为连续动作(如末端执行器位姿、关节角)。
  • 亮点

    • 首次证明 LLM 可直接控制真实机器人。
    • 支持跨任务、跨机器人迁移(如从桌面操作迁移到移动导航)。
  • 开源情况 :❌ 模型权重未开源(依赖闭源 PaLM),但提供论文与部分示例代码。

  • 影响:启发了 RT-2、OpenVLA 等后续工作。

  • Google 提出,使用 EfficientNet + FiLM 调制,输出离散动作 token。

  • 在 13 个机器人上训练,支持 700+ 任务。

  • ❌ 未开源。

  • 基于 PaLM-E 思想,将 VLM(如 PaLI-X)微调为动作预测器。

  • 支持语义泛化(如"把水果放进碗里",即使训练中没见过"芒果")。

  • ❌ 未完全开源,但有社区复现(如 HuggingFace 上的 rt2-tiny)。

  • 机构:Columbia University + Google

  • 核心思想:利用 LLM(如 GPT-4)根据场景点云生成可执行的 3D 操作脚本(如"抓取杯子→移动到水龙头下")。

  • 流程

    1. 输入:语言指令 + 3D 场景重建(如 Open3D)。
    2. LLM 生成 Python 式伪代码。
    3. 转换为具体轨迹(通过 RMPflow 等运动规划器)。
  • 优势:无需端到端训练,可解释性强。

  • 开源情况 :✅

  • 适用场景:一次性任务、少样本设置。

  • 机构:Google DeepMind

  • 特点

    • 统一接口支持多种视觉编码器(ResNet、ViT)、语言模型(T5)、动作头。
    • 支持多摄像头、多任务、多机器人训练。
    • 提供预训练 checkpoint(在大规模内部数据集上训练)。
  • 开源情况 :✅(代码开源,部分模型需申请)

  • 定位:研究友好型 VLA 工具箱。

  • 机构:NVIDIA

  • 发布时间:2024 年 GTC

  • 目标:打造"机器人基础模型即服务"(FaaS)。

  • 技术栈

    • 基于 VIMA、OpenVLA 等改进。
    • 支持仿真训练(Isaac Sim)→ 真实部署(Jetson Orin)。
    • 提供 GR00T NIM 微服务,供开发者调用。
  • 开源情况 :⚠️ 部分开源(SDK 和示例),模型需通过 NVIDIA NGC 获取。

  • 生态整合:与 Isaac Gym、ROS 2 深度集成。

  • 机构:University of Oxford

  • 版本:RVT、RVT-2

  • 特点

    • 专注视觉为中心的动作预测。
    • 引入 3D 旋转等变注意力机制,提升空间理解。
    • 虽非严格 VLA(早期版本无语言输入),但 RVT-2 已支持语言条件。
  • 开源情况 :✅

  • 适用场景:需要高精度 3D 操作的任务(如插孔、拧螺丝)。

  • 论文综述:"A Survey on Vision-Language-Action Models for Robotics" (2025)

  • 教程:Hugging Face LeRobot 文档、OpenVLA 官方 Colab

  • 数据集:BridgeData V2、Open X-Embodiment(包含 Aloha 数据)

  • 更小、更快的 VLA(<1B 参数,实时推理)

  • 多模态记忆(长期任务规划)

  • 人机协作闭环(在线学习 + 反馈)

相关推荐
风象南8 小时前
Claude Code这个隐藏技能,让我告别PPT焦虑
人工智能·后端
Mintopia8 小时前
OpenClaw 对软件行业产生的影响
人工智能
陈广亮9 小时前
构建具有长期记忆的 AI Agent:从设计模式到生产实践
人工智能
会写代码的柯基犬9 小时前
DeepSeek vs Kimi vs Qwen —— AI 生成俄罗斯方块代码效果横评
人工智能·llm
Mintopia10 小时前
OpenClaw 是什么?为什么节后热度如此之高?
人工智能
爱可生开源社区10 小时前
DBA 的未来?八位行业先锋的年度圆桌讨论
人工智能·dba
叁两12 小时前
用opencode打造全自动公众号写作流水线,AI 代笔太香了!
前端·人工智能·agent
前端付豪13 小时前
LangChain记忆:通过Memory记住上次的对话细节
人工智能·python·langchain
strayCat2325513 小时前
Clawdbot 源码解读 7: 扩展机制
人工智能·开源