《VLA 系列》从 VLM 到 VLA 机器人控制，关键的多模态数据和能力是什么？| Vlaser

Vlaser 是一款基于 InternVL3 构建的视觉-语言-行动（VLA）模型，核心亮点是集成协同具身推理与端到端机器人控制能力。

提供VLM多模态数据集，覆盖具身定位、具身问答、空间推理、规划推理、仿真交互等。

论文地址 ：VLASER: VISION-LANGUAGE-ACTION MODEL WITH SYNERGISTIC EMBODIED REASONING

开源地址 ：https://github.com/OpenGVLab/Vlaser

核心痛点：现有VLM 模型的具身推理能力与下游 VLA 策略学习存在领域差距，互联网预训练数据与机器人具身任务适配性不足
研究目标：
- 系统分析 VLM 初始化对 VLA 微调的影响，明确关键数据类型
- 缩小互联网预训练，与机器人具身任务的领域迁移鸿沟
- 构建兼具高水平具身推理，与控制能力的基础 VLA 模型（Vlaser）

1、模型简介

2、模型框架

[阶段 1：多模态预训练图 (a)](#阶段 1：多模态预训练图 (a))

[阶段 2：VLA 微调图 (b)](#阶段 2：VLA 微调图 (b))

[3、VLM + VLA 双组件结构](#3、VLM + VLA 双组件结构)

[（1）VLM 骨干：具身推理基础](#（1）VLM 骨干：具身推理基础)

（2）行动专家：端到端控制模块

[4、Vlaser 数据引擎：6M多模态数据支撑](#4、Vlaser 数据引擎：6M多模态数据支撑)

（1）数据构成与特点

（2）数据质量保障

5、训练流程：两阶段优化策略

[（1）阶段一：VLM 预训练（具身推理强化）](#（1）阶段一：VLM 预训练（具身推理强化）)

[（2）阶段二：VLA 微调（控制能力）](#（2）阶段二：VLA 微调（控制能力）)

6、数据如何转为token（可选观看）

[1. 第一步：原始空间推理数据的结构化整理](#1. 第一步：原始空间推理数据的结构化整理)

[2. 第二步：文本标准化（适配 tokenizer 编码）](#2. 第二步：文本标准化（适配 tokenizer 编码）)

[3. 第三步：tokenizer 编码（核心转化环节）](#3. 第三步：tokenizer 编码（核心转化环节）)

[4. 第四步：拆分 "前文 token" 与 "目标 token"（适配自回归损失）](#4. 第四步：拆分 “前文 token” 与 “目标 token”（适配自回归损失）)

7、模型效果

1、模型简介

核心能力：协同具身推理 + 端到端机器人控制

架构组成：

组件	核心构成	功能定位
VLM 骨干	InternVL3（2B/8B 参数） InternViT 视觉编码器 + Qwen2.5 LLM	提供感知、语言理解与具身推理能力
行动专家	流匹配（Flow Matching）+ MoE 架构	处理低级别机器人控制，预测动作序列

Vlaser-6M数据集：

具身定位数据：1.8M（边界框+中心点标注）
具身QA+空间推理：1.7M（含1.2M RoboVQA+500k空间数据）
规划数据：0.4M（多模态任务+轨迹数据）
仿真域内数据：2M（SimplerEnv/RoboTwin机器人交互数据）

2、模型框架

Vlaser的模型框架，如下图所示。

两阶段核心流程：VLM多模态预训练 → VLA 微调，实现 "感知推理→机器人控制"。

阶段 1：多模态预训练图 (a)

输入

视觉输入：机器人场景的图像数据（来自 Vlaser-6M 数据集）；
任务特定提示：针对具身任务的指令 / 问题（如 "What is the robot doing?""Locate the broccoli."）。

处理模块：Vlaser 模型（集成视觉、文本编码能力）。

输出（对应具身推理能力），生成多类型具身任务结果，包括：

具身QA 对（机器人具身问答任务）；
空间知识（物体位置关系，如 "...is positioned to left top of..."）；
分层规划（任务步骤，如 "1.position grippers 2.lift bottles..."）；
边界框（目标定位坐标，如[589,625,676,732]）。

阶段 2：VLA 微调图 (b)

输入

视觉输入：机器人场景的图像数据；
任务指令：具体操作需求（如 "Place mouse pad"）；
辅助输入：噪声（用于 Action Expert 的动作生成）。

处理模块

Vlaser：处理视觉 token、文本 token，提供感知与推理基础；
Action Expert：接收 Vlaser 的输出（视觉 / 文本 token）+ 噪声，生成动作序列。

输出（对应机器人控制）

生成动作序列 （a_t, a_{t+1}, ..., a_{t+N}），驱动不同自由度的机械臂执行任务：

单臂机械臂（7/8 DoF）；
双臂机械臂（14 DoF）。

小结：

先通过多模态预训练，让 Vlaser 掌握具身场景下的 "感知、推理、规划、定位" 能力；

再通过VLA 微调，结合 Action Expert 模块，将预训练获得的推理能力转化为可执行的机器人动作，实现 "从认知到操作" 的具身智能。

3、VLM + VLA 双组件结构

Vlaser 的架构核心是 "VLM 骨干（感知推理层）+ 行动专家（控制执行层） "，二者共享注意力机制，实现高级推理与低级控制的无缝衔接。

（1）VLM 骨干：具身推理基础

基础框架：基于 InternVL3 构建，聚焦 2B/8B 参数规模（适配机器人计算资源约束）。
核心构成：
- 视觉编码器：采用 InternViT，负责提取机器人场景图像的视觉特征。
- 语言模型：搭配 Qwen2.5-1.5B（2B 模型）/ Qwen2.5-7B（8B 模型），处理文本指令、任务提示与推理逻辑。
核心目标：强化具身常识推理（如物体空间关系、任务逻辑拆解），而非通用多模态任务。

（2）行动专家：端到端控制模块

设计理念：在 VLM 基础上扩展低级别机器人控制能力，验证不同数据流对 VLA 微调的有效性。
技术核心：
- 架构参考：混合专家（MoE）设计，分离通用模态（图像 / 文本）与机器人特定模态（动作 / 状态）的权重。
- 动作预测：采用 流匹配（Flow Matching） 算法，基于单帧观测生成未来动作序列。
- 输入编码：将机器人状态编码为 "状态 token"，噪声动作编码为 "动作 token"，与视觉 / 文本 token 共同输入。
- 注意力机制：VLA 流采用非因果注意力，适配动作序列的生成逻辑。
推理过程：结合图像观测、语言指令与当前机器人状态，对噪声动作进行去噪，输出可执行动作。

4、Vlaser 数据引擎：6M多模态数据支撑

数据引擎是 Vlaser 具身推理能力的核心保障，通过 "curated 公开数据 + 合成标注 + 领域内数据" 构建，覆盖具身任务全链条。

（1）数据构成与特点

数据类型	规模	核心内容	格式 / 来源	核心作用
具身定位数据	1.8M	目标定位任务（开放词汇描述→边界框 / 中心点）	边界框 / 中心点（归一化至 [0,1000]），来源包括 RoboPoint、SA-1B（合成标注）	强化机器人 "定位目标" 的基础能力
通用 & 空间推理数据	1.7M	1.2M RoboVQA（机器人状态、场景问答）+ 500k 空间推理（物体计数、相对位置）	问答对，来源包括 RoboVQA、SPAR、3D 场景手动标注（ScanNet 等）	提升场景认知与 3D 空间理解能力
规划数据	0.4M	多步任务分解、轨迹数据	语言规划步骤 + 动作轨迹，来源包括 Alpaca-15k、Habitat 模拟器生成轨迹	赋能复杂任务的分步执行能力
仿真域内数据	2M	机器人交互场景专属数据	问答对（状态查询、定位、空间推理），来源包括 SimplerEnv（Google Robot/WidowX）、RoboTwin（双臂机器人）	缩小互联网数据与机器人任务的领域差距

（2）数据质量保障

合成数据优化：对 SA-1B 的分割掩码进行转换（边界框 / 中心点），并通过 BLIP-2+Qwen2.5-VL 进行 caption 过滤，确保标注准确性。
人工标注增强：针对空间推理任务，基于 3D 场景手动生成 100k 样本，强化关键空间能力。

5、训练流程：两阶段优化策略

Vlaser 采用 "预训练（强化推理）→ 微调（落地控制） " 的两阶段训练，确保每阶段目标明确、能力聚焦。

（1）阶段一：VLM 预训练（具身推理强化）

训练目标：在 InternVL3 基础上，通过监督微调（SFT）注入具身推理能力。
训练数据：Vlaser-6M 中的通用具身数据（定位、具身QA、空间推理、规划）。
损失函数：**语言建模损失（Llm）**核心逻辑：给定图像x与文本提示y，最小化下一个 token 的预测误差。
训练配置：动态分辨率、448px 补丁大小、bfloat16 精度，全局批次 128。

语言建模损失函数为：

这里其实是一个"自回归语言建模损失"，

核心目标：让模型学习 "给定图像x和文本提示y的前文 token（t0:N−1），准确预测下一个 token（tN）"
公式关键参数对应：
- p：模型预测的下一个 token 的概率分布（维度为词汇表大小m）
- Fv(x;θv)：图像x通过 ViT 视觉编码器 + MLP 提取的视觉特征（θv为视觉模块参数）
- Ft(y)：文本提示y通过文本 tokenizer 转换后的文本特征
- Θ：LLM（语言模型）的核心参数
- tN：待预测的 "下一个 token"（真实标签）

（2）阶段二：VLA 微调（控制能力）

训练目标：优化行动专家模块，将具身推理能力转化为机器人可执行动作。
训练数据：Vlaser-6M 中的领域内数据（机器人交互场景专属数据）。
核心定义：
- 动作块At：当前时刻t开始的H个连续动作（At=[at,at+1,...,at+H−1]），H=4。
- 观测值ot：多视角图像It、语言指令lt、机器人状态qt的融合编码。
损失函数：**流匹配损失（Lvla）**核心逻辑：训练网络学习 "噪声动作→真实动作" 的去噪向量场。
推理配置：积分步长δ=0.1（10 次去噪迭代），平衡推理效率与动作精度。

流匹配损失函数为：

其中At τ为噪声动作（τ为流匹配时序），u为目标去噪向量场。

该损失函数是 流匹配损失（Flow Matching Loss），本质是基于 "去噪向量场匹配" 的均方误差（MSE）损失期望形式；
核心目标是让模型学会从噪声动作中恢复真实机器人动作，确保预测的去噪方向与理论目标方向一致；
所有关键参数均对应机器人动作生成的核心要素（真实动作、噪声、观测、模型预测），适配 VLA 微调阶段的端到端控制需求。

参数符号	中文含义	核心定义	作用
Lvla	VLA 优化损失	流匹配损失的最终计算结果，是 VLA 微调阶段的核心优化目标（论文 2.3 节）	衡量模型动作生成的精准度，指导参数更新
$\mathbb{E}_{p(A_t	o_t)}$	条件分布的期望	对 "给定观测ot时真实动作块At的概率分布 $p (A_to_t)$ " 求期望确保损失反映所有合理 "观测 - 动作" 配对的平均误差，避免个别样本偏差
At	真实动作块	t 时刻开始的连续动作序列，At=[at,at+1,...,at+H−1]（H=4 为动作 horizon，论文 2.3 节）	模型需要生成的 "正确动作目标"
τ	流匹配时序参数	取值范围 [0,1]，控制噪声注入强度	τ=0 时Atτ=ε（全噪声动作），τ=1 时Atτ=At（无噪声真实动作），覆盖从噪声到真实的完整过渡
ϵ	高斯噪声	服从标准正态分布N(0,I)（I 为单位矩阵）	模拟动作生成中的随机扰动，让模型学习鲁棒的去噪能力
Atτ	噪声动作块	由真实动作块At与噪声ε按 τ 加权混合得到，公式：Atτ=τAt+(1−τ)ϵ	模型的输入动作样本，用于学习 "去噪→还原真实动作" 的逻辑
ot	观测值	t 时刻的多模态观测，ot=[It1,...,Itn,lt,qt]（含 n 视角图像Iti、语言指令lt、机器人状态qt，论文 2.3 节）	为动作生成提供场景上下文（如 "看到杯子""收到抓取指令"）
vθ(Atτ,ot)	预测去噪向量场	模型（参数为 θ）输出的去噪方向向量，输入是噪声动作块Atτ和观测ot	模型预测的 "如何从噪声动作Atτ恢复到真实动作At" 的校正方向
$u(A_t^{\tau}	A_t)$	目标去噪向量场	理论上的最优去噪方向，选中内容定义为ϵ−At为模型提供 "正确的去噪参考"，是预测向量场的对齐目标
∣∣⋅∣∣2	L2 范数的平方	计算两个向量场（预测值与目标值）的元素级误差平方和	量化预测偏差，是 MSE 损失的核心计算形式

6、数据如何转为token（可选观看）

VLM 预训练时，输出的token，进行计算损失，那么token怎么生成的？？？？

比如，采集了一段机器人空间推理数据，能实现了某个任务，认为是成功的。那这段数据，如何转为真实 token？

空间推理的成功任务数据，需先整理为 "图像 + 文本指令 + 正确推理结果" 的结构化配对，
再通过文本 tokenizer（Ft(⋅)） 编码为数字 token 序列，
最终形成损失计算所需的 "真实 token"（即模型需预测的正确 token 序列）。

1. 第一步：原始空间推理数据的结构化整理

首先将 "成功完成任务的空间推理数据" 拆解为模型可识别的输入 - 输出配对，核心是明确 "文本指令" 和 "正确推理结果"（真实标签）：

输入部分：
- 图像x：空间推理场景的图像（如 3D 室内场景、机器人工作区画面，对应论文 2.2 节 "3D 场景数据集（ScanNet/ScanNet++）"）；
- 文本提示y：空间推理相关的问题 / 指令（如 "机器人从窗边出发到白鞋，需先左转还是右转？""物体 A 相对于物体 B 的位置是什么？"）。
真实输出部分：
- 正确推理结果（真实标签文本）：任务成功对应的标准答案（如 "先左转，再左转""物体 A 在物体 B 的左前方 30cm 处"），需确保表述精准、符合任务要求（论文强调数据标注的高质量与准确性）。

2. 第二步：文本标准化（适配 tokenizer 编码）

对 "文本提示y" 和 "真实推理结果" 进行统一格式处理，避免歧义：

统一表述风格：比如空间关系用固定术语（"左前方""正上方" 而非模糊表述），数字单位统一（如距离用 "cm"，角度用 "°"）；
完整序列拼接：将 "文本提示y + 真实推理结果" 拼接为完整文本序列（如 "问题：机器人从窗边出发到白鞋，需先左转还是右转？答案：先左转，再左转"），确保 token 序列的连贯性。

3. 第三步：tokenizer 编码（核心转化环节）

利用论文中定义的Ft(⋅)（文本 tokenizer，如 Qwen2.5 的 tokenizer，对应 2.1 节 "搭配 Qwen2.5-1.5B/7B LLM"），将标准化后的完整文本序列转为数字 token：

编码逻辑：tokenizer 会为词汇表（大小m）中的每个词 / 子词分配唯一数字 ID（即 token）；
具体转化示例：原始文本序列："问题：机器人从窗边出发到白鞋，需先左转还是右转？答案：先左转，再左转"编码后 token 序列（示例数字）：[101, 3299, 589, ..., 678, 3345, 102]（其中 101/102 为特殊标记，中间数字为对应文本的真实 token）。

4. 第四步：拆分 "前文 token" 与 "目标 token"（适配自回归损失）

根据选中内容的损失函数逻辑，将编码后的真实 token 序列拆分为两部分，用于训练：

前文 token（t0:N−1）：文本提示y + 真实推理结果的前半部分（如 "问题：机器人从窗边出发到白鞋，需先左转还是右转？答案：先左转，"）对应的 token 序列；
目标 token（tN）：前文之后的下一个正确 token（如 "再" 对应的数字 token）；
完整序列迭代：通过滑动窗口迭代，让模型逐 token 学习 "基于图像特征 + 前文 token，预测下一个正确 token"，最终覆盖整个真实推理结果。