AsyncVLA：面向边缘机器人的异步VLA导航框架 —— 让大模型在高延迟、动态环境下依然安全稳健

近年来，视觉 - 语言 - 动作模型（Vision-Language-Action Models, VLA） 凭借从互联网尺度视觉 - 语言表征中继承的强大泛化能力，成为机器人具身智能与自主导航的主流技术路线。然而，随着模型规模不断扩大，推理速度与实时控制之间的矛盾愈发尖锐：大参数量 VLA 算力需求极高、推理延迟长，无法直接部署在算力有限的机器人边缘端；若将其放在远端工作站运行，网络通信延迟又会进一步拉长控制周期，导致机器人在动态障碍、遮挡、弱网等真实场景中反应迟钝、极易碰撞。

如何在保留大模型强大语义与视觉理解能力的同时，让机器人在边缘端实现高频、实时、鲁棒的导航控制，成为大模型机器人落地的核心难题。

本文要精读的 AsyncVLA ，正是为解决这一矛盾提出的异步双回路控制框架 。它将大模型的高层语义推理与边缘端的实时动作执行彻底解耦，通过轻量化边缘适配器、动态轨迹加权与端到端联合训练，让机器人在最高 6 秒通信延迟 下仍能稳定导航，在真实动态场景中成功率较现有最优方法提升40%。

原文链接：AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge

代码链接：NHirose/AsyncVLA: Official code repository for AsyncVLA project

沐小含持续分享前沿算法论文，欢迎关注...

一、研究背景与问题提出

1.1 大模型 VLA 的能力与困境

视觉 - 语言 - 动作模型（VLA）由大规模视觉 - 语言模型（VLM）在机器人数据上微调而来，能够直接理解语言指令、目标图像、2D 目标位姿等多模态目标，并输出连续动作，在开放世界导航中展现出极强的泛化性。但随着模型规模攀升至数十亿乃至上百亿参数，一系列致命问题随之出现：

推理延迟高：大模型无法在 Jetson 等边缘计算平台上实时运行，控制频率被严重拉低。
控制回路滞后：动作基于过时观测生成，在动态环境中失去反应能力。
通信延迟叠加：远端部署引入 WiFi 波动，延迟可达秒级，直接破坏实时性。
功耗与续航受限：边缘端运行大模型功耗过高，大幅缩短机器人工作时间。

1.2 现有解决方案的局限

针对 VLA 部署效率问题，现有研究主要沿三条路径展开：

轻量化 / 量化：直接缩小模型或降低精度，虽提升速度，但显著损失语义与视觉能力。
异步推理优化：仅能补偿毫秒级推理延迟，无法应对秒级网络波动。
快慢双架构：多面向机械臂静态操作，未考虑移动机器人的动态障碍与复杂环境。

这些方法均无法同时满足：大模型能力保留 + 边缘实时执行 + 高网络延迟鲁棒三大要求。

1.3 本文核心科学问题

如何在边缘机器人上部署大规模具身基础模型，同时不受其计算成本与通信延迟的限制？

AsyncVLA 的答案是：构建异步解耦架构，用 "大模型慢决策、小模型快执行" 实现分层控制。

二、核心思想：异步双回路嵌套控制

AsyncVLA 的设计灵感来自认知科学双系统理论 （快系统 / 慢系统）与机器人经典级联分层控制：

慢回路（外层）：由大规模 VLA 在远端工作站运行，负责高层视觉与语言语义理解。
快回路（内层）：由超轻量 Edge Adapter 在机器人边缘端运行，负责高频实时动作修正。

推理阶段两者完全异步，训练阶段则通过端到端方式对齐，弥合延迟带来的信息流错位。最终实现：大模型能力不打折、边缘控制低延迟、整体系统抗波动。

整体流程可概括为：

训练：联合优化大尺寸基座 VLA 与轻量化 ViT 结构，以端到端方式学习互补能力。
推理：基座 VLA 在工作站低速提供语义指导；Edge Adapter 在机器人端高速融合最新观测，输出安全动作。

这一架构让大模型不再受限于边缘算力，也让轻量模型不再受困于语义理解不足。

三、网络架构

AsyncVLA 基于 OmniVLA（8.27B） 作为基座 VLA，搭配轻量化 Edge Adapter（76M）形成完整架构。

基座 VLA（远端工作站）

主干：OmniVLA 多模态导航大模型。
视觉编码器：SigLIP + DINOv2，提供强视觉特征。
语言编码器：LLaMA 2，理解自然语言指令。
输入：语言指令、2D 目标位姿、目标图像、历史观测图像。
输出：高维动作 Token 嵌入，经压缩后发送至机器人端。

Edge Adapter（机器人边缘端）

视觉编码器：EfficientNet-B0，轻量高效。
主干：轻量化 ViT 结构，处理多源 Token 输入。
图像分辨率：96×96（仅为基座 VLA 的 1/4）。
动作头：4 层 MLP，输出 2D 位姿动作块。
部署：NVIDIA Jetson Orin 30W 模式，实时运行。

整体信息流

机器人实时采集图像，上传至远端工作站。
工作站运行基座 VLA，生成并压缩动作 Token，回传至机器人。
机器人缓存历史图像，按时间戳匹配滞后观测。
Edge Adapter 融合三类输入，生成实时动作。
动作经 PD 控制器转换为速度指令，驱动机器人运动。

四、技术原理

AsyncVLA 的核心创新由三大紧密耦合的技术模块构成。

4.1 Edge Adapter 架构设计：延迟感知的轻量实时策略

Edge Adapter 是 AsyncVLA 实现实时性 与抗延迟 的核心组件，论文中将其定义为运行在机器人端、仅 76M 参数的轻量 ViT 策略网络，承担 "将滞后的高层语义指导，校正为当前观测下安全动作" 的关键任务。

4.1.1 延迟问题的形式化定义

论文中明确给出延迟带来的核心矛盾：若系统存在 步延迟 ，机器人执行动作时，实际依据的是 时刻的观测  ，而非当前时刻的观测。在动态环境中，这一滞后会直接导致碰撞与任务失败。

Edge Adapter 的设计目标，就是在接收对应的滞后语义信号前提下，始终输出基于 的最优动作。

4.1.2 多源输入结构

Edge Adapter 共接收三组输入，缺一不可：

基座 VLA 压缩后的动作 Token 嵌入
- 来源：基座 VLA（OmniVLA）最后一层动作特征，经 Token Projector 压缩。
- 信息：包含高层语义、目标理解、全局规划信息，但时间滞后。
- 维度：压缩为 8×1024，适配轻量网络计算。
当前时刻低分辨率图像特征
- 分辨率：96×96（远小于基座 VLA 的 224×224）。
- 作用：捕捉机器人当下最实时的局部环境，包括突然出现的行人、动态障碍。
- 编码：由轻量编码器 EfficientNet‑B0 提取为1024 维 Token。
时序差分图像特征（与拼接）
- 结构：将当前图像 与滞后图像在通道维度拼接，编码为单一 1024 维 Token。
- 作用：显式建模延迟窗口 $t-k, t$ 内机器人位姿变化、环境动态变化、障碍出现 / 消失。
- 意义：让模型 "知道信号滞后了多少、环境发生了什么变化"。

4.1.3 Token Projector 压缩机制

基座 VLA 原始输出 Token 维度极高：8×4×4096（动作块数量 8，动作本身维度 4， embedding 特征维度 4096），无法直接在边缘端使用。论文专门设计了Token Projector对其进行压缩：

结构：两层 MLP ResNet 块。
功能：将 4×4096 维 高维嵌入 → 压缩为1024 维。
目的：
1. 降低边缘设备计算量。
2. 减少工作站→机器人的 WiFi 传输数据量。
3. 保留语义与动作信息完整性。

4.1.4 动作输出与滞后屏蔽机制

为了彻底杜绝滞后信息污染当前动作，论文在输出层做了关键约束：

Edge Adapter 输出 N 步动作块 ，但仅将对应当前观测的 Token 送入动作头。
动作头为 4 层 MLP ，输出机器人局部坐标系下的 2D 位姿序列，与 OmniVLA、ViNT 等经典导航模型保持一致。
最终动作仅由当前观测主导，滞后语义信息仅作为 "方向指导"，不控制实时避障。

4.2 反应性轨迹加权策略：自动强化动态避障行为

论文明确指出：常规数据集里动态避障、急停、避让行人等反应性行为样本极少，直接训练会导致模型在危险场景失效。因此提出自动轨迹加权****（Trajectory Re‑weighting），精准提升关键样本的学习强度。

4.2.1 核心思想

识别出机器人在一个动作块内突然改变行为 的片段（如为了避障急转、减速），并对这些片段提升训练权重。

4.2.2 严格数学定义

从训练数据中提取两组动作块参考：
- ：时刻（当前）机器人坐标系下的参考动作。
- ：时刻（滞后）机器人坐标系下的参考动作。
判定规则：若两段轨迹最终位姿的欧氏距离 超过预设阈值，则判定为高反应性片段：
加权策略：
- 满足上式 → 大幅提升该样本权重。
- 论文实验中 =1.0 米。
- 同时对 SACSoN 数据集中含行人的帧做额外优先采样，强化社交导航能力。

4.2.3 设计目的

让模型优先学习避障、急停、避让行人等安全关键行为。
解决真实导航数据中动态交互样本稀疏的问题。
使 Edge Adapter 在突发障碍面前具备人类级反应速度。

4.3 两阶段端到端训练：对齐异步双模型信息流

AsyncVLA 由基座 VLA（慢）与 Edge Adapter（快）两个异步模块组成，必须通过联合训练 实现语义对齐，否则会出现 "指导滞后、动作混乱" 的问题。论文采用两阶段训练 + 统一损失函数，完全遵循可微端到端机制。

4.3.1 模型前向传播公式

基座 VLA 前向：
- ：Token Projector 参数。
- ：基座 VLA（OmniVLA）自身参数。
- ：多模态目标（位姿 / 语言 / 目标图像）。
- 输出：动作 Token 嵌入。
Edge Adapter 前向：
- ：Edge Adapter 参数。
- 输入：滞后 Token、当前图像、滞后图像。
- 输出：最终可执行动作块。

4.3.2 整体训练损失函数

总损失为模仿损失 与动作平滑损失之和：

模仿损失
- 第一项：监督绝对位姿 ，保证朝向目标。
- 第二项：监督相对位移，保证局部动作精准、反应快速。
动作平滑损失
- 约束动作连续无突变，提升机器人运动平稳性与安全性。

4.3.3 两阶段训练流程

第一阶段：固定基座 VLA，训练 Adapter 与 Projector
- 初始化：加载 OmniVLA 预训练权重并冻结。
- 训练：（Adapter）与（Projector）从零开始学习。
- 目的：不破坏大模型能力，让小模型先学会 "校正滞后信号"。
第二阶段：全模型端到端微调
- 解冻，将、、联合进行更新。
- 目的：深度对齐快慢回路，让基座 VLA 的输出更适配 Edge Adapter 的校正机制。
- 训练技巧：对基座 VLA 使用LoRA，仅训练～5% 参数，节省显存并提升稳定性。