混元Hy-Embodied-0.5-VLA：从视觉-语言-动作模型到真实世界机器人学习全栈系统

腾讯机器人实验室 × 腾讯混元团队 | arXiv:2606.14409v1

打通机器人学习全链路：腾讯发布端到端VLA系统HyVLA-0.5

从数据采集、模型架构到真实场景部署，探索具身智能基础模型的工程化实践

具身智能VLA模型机器人学习跨本体迁移

过去一年，视觉-语言-动作（Vision-Language-Action, VLA）模型在机器人控制领域呈现出快速迭代态势。从早期的离散动作令牌建模到近期的连续流匹配策略，模型架构不断演进。然而，一个真正可部署的通用机器人，很难依靠单一模型孤立实现。数据质量、训练范式、适配策略与执行层必须围绕真实硬件进行协同设计。在这一背景下，腾讯机器人实验室与腾讯混元团队联合提出了Hy-Embodied-0.5-VLA（简称HyVLA-0.5），一个覆盖完整机器人学习全栈的端到端系统，涵盖数据采集、模型设计、持续预训练与监督微调、强化学习后训练以及真实场景部署五大环节。

一、VLA落地的三重挑战：数据、表征与部署

当前VLA模型在走向真实世界时，面临三个相互耦合的瓶颈。在数据层面，传统遥操作依赖主从式接口，操作者被迫适应机器人的工作空间，缺乏直接的触觉反馈，难以完成精细操作。虽然利用人类演示数据或手持式采集框架（如UMI）可以缓解数据稀缺问题，但这些方案也引入了新的局限：原始人类演示丰富了行为多样性，却提供了过于粗糙的动作标签；现有UMI设备通过视觉SLAM实现定位，但手持式设备的笨重形态难以捕捉指尖级别的力传递细节。

在模型架构层面，早期VLA方法主要依赖自回归建模对离散化动作令牌进行预测，这本质上限制了执行速度与控制精度。近期框架通过将视觉-语言模型与流匹配动作专家相结合，实现了连续动作预测，但其基础视觉骨干网络并非专门为机器人控制设计，通用视觉表征与物理交互所需的密集时空推理之间仍存在显著差距。

在部署层面，即使策略训练良好，若无法在高频闭环视觉回路中实时运行，其实用价值也将大打折扣。标准模仿学习难以达到最后一英里的灵巧度，而现有面向连续控制的强化学习方案通常依赖脆弱的奖励模型或价值网络。这些瓶颈共同指向一个核心需求：构建一个统一管线，联合解决数据、模型、策略精化与部署执行的问题。

图1：Hy-Embodied-0.5-VLA系统概览。该系统将Hy-Embodied-0.5-MoT骨干网络与流匹配动作专家相结合，在基于增量块的动作表征下，经过1万小时UMI语料预训练与基于PRO的离线强化学习阶段，实现单一预训练检查点向多本体平台的跨本体迁移。

二、数据层：自研指尖UMI与万小时级语料库

HyVLA-0.5的数据基础建立在团队自研的指尖级UMI采集设备与运动捕捉笼之上。该采集系统累计收集了超过1万小时的第一人称视角、亚毫米精度的人类演示数据，且同一批轨迹可直接用于后训练阶段，无需为目标机器人单独采集数据。

2.1 硬件设计与采集流程

团队设计的手持式UMI夹爪参考了工业界广泛采用的Changingtek CTAG2F90夹爪形态，有助于缩小部署时的形态差异。夹爪搭载摄像头靠近夹爪表面，在狭窄空间操作时减少了摄像头碰撞风险。夹爪开合度由关节处的旋转编码器测量，精度达到亚毫米级，无需依赖视觉识别来估计开合状态。

与标准UMI管线依赖机载视觉SLAM恢复夹爪位姿不同，该采集系统采用外部光学运动捕捉系统，在单一全局笛卡尔坐标系中以亚毫米精度解析每个夹爪的六自由度轨迹，并同步头部RGB-D摄像头以避免红外干扰。这种光学追踪方案在涉及精细动作技能的任务中提供了更高质量的动作标签，有效规避了SLAM系统因暂时缺乏视觉特征而产生的位姿抖动与跟踪丢失风险。

图3：UMI自定义数据采集工作站。该自研硬件配置包含外部光学运动捕捉系统（亚毫米级高精度追踪）、第一人称视角摄像头（原生深度采集）以及每只手配备的六维力觉传感夹爪。

2.2 数据集构成与分布

Hy-UMI-10K语料库涵盖超过100万条演示片段、累计1万小时以上的数据，横跨70个不同的任务，按场景划分为六大任务家族：洗衣房（28.5%）、厨房（19.2%）、个人护理与杂项（13.8%）、灵巧操作与工具使用（10.4%）、收纳与整理（10.0%）以及清洁（5.7%）。其余任务构成长尾分布，覆盖多样化的物体类别与环境条件。被操作物体范围广泛，从刚性容器、餐具到精密仪器和可变形织物均有涉及。

图4：UMI数据集分布详述。该图展示了团队内部采集的1万小时UMI演示语料库在任务家族、技能原语、物体类别以及典型场景方面的多样化特征。

10,000+小时 egocentric 演示数据 | 70+ 任务 | 1M+ 演示片段

三、模型架构：MoT骨干、流匹配专家与紧凑记忆编码

HyVLA-0.5的模型架构遵循视觉-语言-动作（VLA）范式，由三个核心组件构成：基于Mixture-of-Transformers（MoT）的具身视觉-语言模型骨干、流匹配动作专家，以及紧凑记忆编码器。

图2：HyVLA-0.5架构概览。该框架采用MoT架构，通过共享的联合注意力机制促进跨模态交互。为有效处理K帧多视角RGB序列，图像编码器被扩展为紧凑记忆编码器，在每四层之间交错插入时序注意力块，实现跨时间维度的因果掩码与历史视觉上下文的无缝融合。

3.1 模态自适应计算骨干

HyVLA-0.5以Hy-Embodied-0.5-MoT为骨干，这是一个拥有40亿参数的紧凑模型，针对边缘部署进行了优化。该骨干采用原生分辨率视觉编码器Hy-ViT 2.0，可接受任意输入分辨率，每个摄像头流均可按其原生分辨率处理，无需下采样至固定尺寸。

MoT架构为视觉与文本流维护独立的QKV与FFN参数。在前向传播过程中，所有由ViT提取的视觉令牌使用一套独立的视觉专用参数计算，而文本令牌则使用原始语言参数处理。跨模态交互被严格限制在共享的自注意力层中，因此视觉与文本参数可独立更新。此外，骨干网络在每个单独图像的视觉令牌之间应用双向注意力，而对语言令牌保持标准因果注意力。

3.2 双塔流匹配动作专家

不同于将动作离散化为类语言令牌的做法，HyVLA-0.5为骨干网络配备了动作专家，直接通过条件流匹配对连续分布进行建模。该架构将联合Transformer分离为面向理解的VLM塔与面向生成的动作专家塔。VLM塔使用上述模态自适应参数处理视觉与文本上下文，动作专家则接收投影后的机器人状态与噪声动作令牌，生成连续动作速度场。两塔通过共享自注意力进行交互，使grounded的视觉-语言上下文能够引导动作生成。

在推理阶段，策略通过前向欧拉更新从流时间步0到1积分习得的速度场，共执行10个积分步。由于条件观测前缀在所有求解器迭代中保持不变，其键值对在初始前向传播后被缓存，后续步骤仅重新计算动作令牌，显著降低了计算开销。

3.3 紧凑记忆编码器

为处理多帧多视角历史观测，HyVLA-0.5将图像编码器扩展为视频编码器，在令牌到达VLM骨干之前压缩时间维度。该编码器采用因子化时空注意力机制：在每L层插入一次时序传递，添加固定正弦时序编码，并复用底层ViT块的QKV与输出投影。时序传递采用因果注意力，使每帧仅关注当前与过去帧，匹配机器人感知的流式特性；空间传递则保持原始帧内双向自注意力。

这种因子化设计避免了联合时空注意力的平方复杂度，将每层计算成本降至线性水平。在视频编码器的上层，过去帧的块表征被丢弃，仅将当前帧令牌传递给骨干，使得视觉令牌数量与单帧策略相当。该设计不引入新的可学习参数，当K=1时退化为标准ViT块，可直接从Hy-Embodied-0.5权重初始化。

四、训练范式：持续预训练与双轨道微调

HyVLA-0.5的训练分为大规模预训练与任务特定监督微调两个阶段。预训练阶段，模型在完整的1万小时UMI语料库上进行20万步训练，全局批量大小为1024，基础学习率为5e-5。为加速大规模预训练，此阶段设置历史帧长度K=1，即不使用历史图像帧，视频编码器退化为标准单图像编码器。策略以10Hz频率预测未来50步的动作块。

监督微调阶段从UMI预训练检查点初始化，针对每个目标本体的任务特定演示进行微调。与预训练不同，SFT阶段设置K=6，启用视频编码器条件化当前帧与过去五帧。团队在模拟环境与四个真实世界平台上进行了微调。模拟环境采用RoboTwin 2.0基准的Aloha-AgileX双臂配置，覆盖50个操作任务。真实世界SFT分为两个部署轨道：Track-A（同本体适配）在目标机器人上通过遥操作采集数据并评估；Track-B（跨本体迁移）仅使用UMI演示进行微调，在形态不同的目标机器人上部署，无需目标机器人遥操作。

五、RL后训练：FlowPRO算法与人在回路偏好优化

经过监督预训练与微调后，HyVLA-0.5通过失败驱动的后训练进一步提升真实机器人部署性能。该阶段采用FlowPRO算法，一种基于流匹配感知的偏好优化损失（RPRO）与遥操作干预-回滚数据管线的离线强化学习方法。

图5：FlowPRO数据管线。在策略推出过程中，操作员触发干预-回滚：系统回退到先前状态，将已执行段记录为负向轨迹，并记录修正后的遥操作段作为配对正向轨迹。平滑插值程序随后合成缺失的对应动作，生成用于偏好优化的逐状态元组。

5.1 设计原则

FlowPRO围绕三项核心原则构建。第一，直接利用失败轨迹：负向轨迹不会被丢弃或仅用于重新标注，而是作为逐状态、逐块的对比信号直接反馈到动作生成损失中。第二，完全避免奖励与价值模型：训练信号从冻结参考策略与当前策略以闭式形式计算，绕过了接触丰富操作中密集奖励设计的瓶颈。第三，锚定隐式奖励：对称的近端正则化器防止隐式奖励的绝对幅度爆炸，从结构上禁止了策略远离正负样本的奖励作弊行为。

图6：RPRO优化示意图。可学习策略与冻结参考策略对同一状态预测动作，目标将可学习策略拉向偏好动作并推离非偏好动作，近端正则化器（蓝色虚线）将两个奖励分支锚定到参考策略，防止奖励作弊。

5.2 干预-回滚与平滑插值

偏好轨迹对通过遥操作干预-回滚管线收集。在策略推出过程中，操作员观察到错误或危险动作时进行干预，系统回退到先前状态，记录已执行段为负向轨迹，并从该状态记录操作员的修正演示作为正向轨迹。单次操作员动作即可产生共享相同初始状态的自然配对轨迹。

由于正负轨迹在分叉后各后续状态仅属于单一轨迹，团队采用平滑插值程序合成缺失的对应动作。对于负向轨迹上的状态，在正向轨迹上定位其最近点，通过三次贝塞尔曲线（位置）、球面线性插值（朝向）与线性插值（夹爪）构建合成动作块。这种设计使得SFT式演示可以安全地通过RPRO损失进行路由，利用对比梯度抵消性质避免干扰。

六、部署架构：异步推理与贝塞尔曲线平滑

部署阶段主要解决三个运行时问题：将末端执行器增量块映射到异构机器人平台、以机器人控制频率提供VLA预测、以及将独立预测的块拼接为平滑运动。团队通过三个轻量级组件分别处理：平台映射器保持学习到的动作接口跨本体不变；异步推理-执行循环将骨干前向传播与伺服执行重叠；延迟感知的三次贝塞尔拼接器移除陈旧前缀并强制实现平滑块过渡。

图7：异步执行时间线。策略推理、贝塞尔平滑、缓冲区覆盖与伺服频率动作执行相互重叠；已执行动作被记录用于估计下一块拼接的切线。

6.1 本体无关平台映射

策略输出20维双臂动作块（每臂10维：3维笛卡尔平移与6维旋转，相对于块起始时刻的末端执行器姿态，外加1维夹爪开合命令）。本体特定的运动学被推迟到部署阶段处理：相对SE(3)预测与初始末端执行器姿态组合恢复绝对世界坐标系目标，随后在目标机器人上求解逆运动学生成关节指令。对于固定基座机械臂与人形机器人，团队分别推导了世界坐标系与底盘坐标系下的映射方程，确保学习到的动作接口在Track-A同本体部署与Track-B跨本体部署中保持不变。

6.2 延迟感知块拼接

块拼接在异步执行中至关重要：延迟的块必须与机器人当前状态重新连接，且不引入运动不连续。团队采用三次贝塞尔段构建紧凑的C1连续连接器，具有可控的端点位置与切线。贝塞尔曲线应沿机器人当前运动方向离开，并沿策略预测的下一方向进入未来块。两个内控制点分别沿历史运动方向与未来块局部方向放置，距离按当前机器人状态与重连点之间的间隙缩放。

图8：原始动作块（橙色）与异步贝塞尔平滑轨迹（蓝色）的对比。平滑处理显著减少了双臂在x、y、z维度上的块边界不连续现象。

七、实验评估：从模拟基准到真实场景

实证验证围绕两个并行问题展开：标准下游监督微调后HyVLA-0.5在模拟与真实硬件上的性能表现，以及FlowPRO后训练对部署策略的进一步提升。

7.1 模拟任务评估

在RoboTwin 2.0基准上，HyVLA-0.5在50个任务套件中取得了领先的平均成功率：清洁环境设置下达到90.9%，随机化环境设置下达到90.1%。与π0相比，在清洁环境上提升25.0个百分点，在随机化环境上提升31.7个百分点；与π0.5相比分别提升8.2和13.3个百分点。即使与当前最强的竞争方法JoyAI-RA相比，HyVLA-0.5仍保持0.4至0.8个百分点的领先。

消融实验表明，移除紧凑记忆编码器后性能降至88.8%/88.6%，进一步移除大规模UMI预训练后降至88.1%/87.9%。这说明UMI预训练与短视程视觉记忆均提供了一致的性能增益。尽管真实世界UMI语料库在视觉外观上与RoboTwin 2.0合成渲染存在较大差异，预训练仍在模拟环境中提供了适度增益。

7.2 真实世界双臂操作

真实世界评估在Dobot X-Trainer、JAKA K1与Astribot S1三个平台上展开，涵盖六个基准任务。Track-A（同本体适配）在Dobot X-Trainer上测试了四个双臂任务：插入瓶子、折叠收纳眼镜、摆放餐具以及拉上笔盒拉链。结果显示，在折叠收纳眼镜与拉上笔盒拉链等精度关键任务中，预训练的作用尤为显著。这些任务的成功取决于少数决定性子步骤（如内折镜腿不滑落、捏住拉链头再拉动），需要亚厘米级定位与稳定的双臂力耦合。未经Hy-UMI-10K预训练的策略在这些关键时刻精度明显不足，局部误差向下游传播并主导失败模式；预训练则扭转了这一模式，在相同关键时刻提升了预测精度，端到端成功率相应提高。

图9：六个真实世界双臂操作任务评估。左侧面板展示了推出过程中捕获的代表性任务执行快照；右侧面板展示了在遥操作或UMI演示监督微调后的逐任务成功率。

Track-B（跨本体迁移）在JAKA K1上测试了收纳发圈任务（将亚厘米级发圈放入隔间盒中心格），在Astribot S1人形机器人上测试了清理桌面任务（将散落的纸杯依次放入垃圾桶）。由于微调阶段完全未接触目标机器人数据，任何相对于基线的增益都必须来自预训练阶段学到的先验。实验表明，这一增益在两个机器人上均十分显著：HyVLA-0.5在收纳发圈与清理桌面任务上的成功率均明显高于π0与π0.5，尽管三种策略都在相同的UMI数据上进行了后训练。这证实大规模、高保真UMI预训练赋予了模型本体无关的动作先验，使其能够在形态未见过的机器人上存活部署迁移。

7.3 力觉模态验证

由于手持式UMI夹爪在采集过程中记录了指尖力信号，所得数据直接包含了力感知与力控制操作所需的物理线索。团队在Unitree G1人形机器人上展示了这一能力：策略执行力判别任务，依次抓取两个盒子并将较轻者放入前方篮子。该任务中较轻物体的位置在试验间随机化，仅凭空间记忆无法解决，策略必须比较抓取阶段的力分布曲线后再决定放置哪个盒子。HyVLA-0.5在多次试验中可靠地选择了较轻盒子，证明UMI工作站采集的触觉信号为下游策略提供了可操作的非视觉线索。

图10：Unitree G1上的力引导物体判别。机器人依次抓取两个质量不同的盒子并将较轻者放入前方篮子，验证了自研UMI工作站能够捕捉可操作的触觉线索。

7.4 FlowPRO后训练效果

FlowPRO实验在Dobot X-Trainer双臂平台上进行，评估了插入瓶子、笔帽装配、USB插入与拉上笔盒拉链四个长程双臂任务。从相同的HyVLA-0.5 SFT检查点出发，三种方法各运行三轮迭代后训练。RPRO在所有四项任务上均取得了最高成功率和最短完成时间：插入瓶子任务成功率达99%（DAgger为93%，π0.6*为95%），完成时间仅16秒（DAgger为27秒，π0.6*为24秒）。

图11：FlowPRO后训练的两个额外精细任务：USB插入（亚毫米级精度）与笔帽装配（空中双臂协调）。

图12：四项真实世界任务上的逐迭代成功率。迭代0对应共享SFT检查点；迭代1-3对应连续后训练轮次。RPRO在整个迭代过程中始终优于DAgger与π0.6*。

RPRO相对于DAgger的优势源于其对负向轨迹的显式利用：逐状态的推离梯度将策略从邻近失败模式中拉回。相对于π0.6*，RPRO将偏好信号直接注入动作生成损失，而非通过单一条件令牌间接施压，因此在所有任务上均实现了更可靠、更高效的执行。

八、总结与未来方向

系统级协同设计是具身智能落地的关键

HyVLA-0.5的实践表明，可部署的通用机器人必须建立在数据、表征、策略精化与部署执行协同设计的完整栈之上。高保真UMI数据为学习精确操作先验提供了可复用的监督；紧凑记忆编码器与相对末端执行器/增量块表征在保持动作接口独立于平台运动学的同时赋予策略时序上下文；FlowPRO将真实失败案例转化为紧凑的离线精化，无需大规模在线探索；异步块拼接使同一检查点在真实硬件延迟下可执行。这些组件分别解决数据质量、动作表征、失败纠正与部署时序等不同瓶颈，但共享同一目标：在吸收本体特定差异的同时保持稳定的策略接口。

在数据层面，一个重要方向是在保留高精度监督的同时摆脱运动捕捉的约束，基于外骨骼的采集方案是通往这一目标的有前景路径。Hy-UMI-10K已提供高精度动作标签，也为研究精度对预训练的边际价值提供了简单途径。此外，第一人称UMI摄像头与机器人部署摄像头之间的视觉差异仍有待系统性的视觉增强研究来弥合。

在部署效率层面，成功不仅取决于机器人能否完成任务，还取决于其能否以实用的任务节奏执行。将部署时自适应与强化学习相结合，在保持安全与精度的同时提升执行速度，是接下来的关键步骤。

在具身智能的远期发展上，HyVLA-0.5尚未研究零样本泛化，团队认为当前数据规模尚不足以支撑此类论断。与此同时，近期系统如π0.7已开始出现零样本行为的早期迹象，表明更大规模的数据与更强的管线可能带来质的新能力。如何严格评估这些能力，以及如何利用评估本身驱动具身模型与部署管线的迭代，仍是该领域的重要开放问题。

项目主页 tairos.tencent.com/openSourceModels/hy-embodied-0.5-vla

具身智能&世界模型blog： https://jinxindeep.github.io/blog/blog2026.html