OpenVLA 技术综述

概述

OpenVLA（Open Vision-Language-Action Model）是斯坦福大学、加州大学伯克利分校等机构联合提出的开源通用机器人操控模型，发表于 2024 年（arXiv:2406.09246）。它将大型视觉语言模型（VLM）与机器人动作预测相结合，使机器人能够理解自然语言指令并直接输出控制动作。

OpenVLA 技术综述

核心架构

OpenVLA 基于 Prismatic VLM 框架构建，整体是一个 7B 参数的多模态大模型，由三个模块串联组成：

复制代码

摄像头图像

│

▼

┌─────────────────────────────┐

│ Vision Backbone (双路) │ SigLIP + DinoV2

│ 图像 → 视觉特征 patches │ 各输出 256 个 patch tokens

└──────────────┬──────────────┘

│ 512 维特征拼接

▼

┌─────────────────────────────┐

│ MLP Projector │ 将视觉特征映射到语言空间

└──────────────┬──────────────┘

│

+ 自然语言指令 tokens

▼

┌─────────────────────────────┐

│ LLaMA-2 7B Language Model │ 自回归生成动作 tokens

└──────────────┬──────────────┘

│

▼

机器人控制动作

[Δx, Δy, Δz, Δroll, Δpitch, Δyaw, gripper]

关键技术创新

1. 动作离散化

OpenVLA 将连续的机器人动作（末端执行器位置、姿态、夹爪开合）离散化为 256 个 bin，直接复用 LLM 的词表 token 来表示动作。推理时，模型输出 7 个 token 依次对应 7 个自由度，再反量化为连续控制值。这使得整个框架无需额外的动作解码器，完全统一在语言模型框架内。

2. 大规模数据预训练

在 Open X-Embodiment 数据集上预训练，覆盖 970,000+ 条真实机器人轨迹、29 个机器人平台、来自 22 个研究机构的多样化操控任务。相比之前的模型（如 RT-2 需要私有数据），OpenVLA 完全开源。

3. 参数高效微调

支持 LoRA（Low-Rank Adaptation）微调，在特定任务（如 LIBERO 仿真基准）上只需更新少量参数，即可将通用模型适配到具体场景，大幅降低计算成本。

4. 双路视觉编码

同时使用 SigLIP（擅长语义理解）和 DINOv2（擅长空间细节）两个视觉编码器，将两路特征在嵌入维度上拼接，比单一编码器获得更丰富的视觉表征。

推理流程

以 LIBERO 仿真为例，每一步的推理过程为：

观测：从仿真环境获取 256×256 RGB 图像
裁剪：对图像做中心 90% 裁剪并缩放到 224×224（消除训练时随机裁剪的分布偏移）
编码：图像通过双路视觉编码器生成 256 个 patch 特征
提示构造 ："In: What action should the robot take to {task}?\nOut:"
推理：LLaMA-2 自回归生成 7 个动作 token（每个代表一个自由度）
执行：反量化为连续动作后发送给机器人执行器

整个推理链路在单张 RTX 3060（12GB）上以 4-bit 量化运行，每步推理约 1-2 秒。

实验结果（本次复现）

在 LIBERO-Spatial 任务套件（10 个空间关系推理任务，每任务 1 次试验）：

任务类型	成功 / 总计	成功率
LIBERO-Spatial（1-trial）	8 / 10	80%

官方论文报告的 LIBERO-Spatial 成功率为 78-84%（50 trials/task），本次复现结果与之吻合。

局限性与挑战

方面	说明
推理速度	7B 模型每步约 1-2 秒，远低于实时控制需求（通常需要 ≥10Hz），目前只适用于非实时任务
泛化能力	对训练分布外的场景（新物体、新背景）泛化能力有限，需要微调
3D 感知缺失	仅使用单目 RGB 图像，无深度信息，复杂遮挡场景下容易失败
计算资源	完整 BF16 推理需要 16GB+ 显存，量化后精度略有下降

意义

OpenVLA 代表了将大语言模型范式引入机器人控制的重要里程碑------同一套模型通过自然语言指令即可控制多种机器人执行多样化任务，无需为每个任务单独设计控制器。随着模型效率的提升和具身智能数据的积累，这一技术路线被广泛认为是通用机器人的重要方向之一。