【学习笔记】让机器人“边想边动”——实时动作分块流策略的执行方法

引言:机器人"思考"太慢怎么办?

想象一下:你让机器人帮你点一根蜡烛。它拿起火柴,正要划燃时,突然"愣住"了------因为它在"思考"下一步该怎么做。这个"愣住"的时间,可能只有零点几秒,但对于一个需要精确动作的任务来说,足以导致失败。

现代机器人控制模型(尤其是视觉-语言-动作模型,VLA)虽然强大,但推理速度慢 。更糟糕的是,机器人是物理系统,世界不会等它"想完"。这就是实时控制的挑战。

传统方法的困境

  • 同步推理:机器人执行一段动作后,停下来等模型生成下一段动作。问题是:模型生成动作的时间可能比执行时间长,导致机器人"卡顿"。
  • 动作分块 :一次性生成多个动作,执行一部分,再生成下一批。虽然减少了推理频率,但在块与块之间容易产生不连续的"跳跃"动作,尤其在模型推理延迟较大时更明显。

我们的方法:Real-Time Chunking (RTC)

我们提出了一种无需重新训练 的推理算法,能让模型边执行边思考,同时保证动作的平滑性和连续性。

核心思想:像"修图"一样补全动作
  • 当机器人在执行当前动作块时,我们已经在后台生成下一个动作块。
  • 如果新块生成得慢,我们就"冻结"那些已经被执行的动作,只补全未来的部分。
  • 这个过程类似于图像修复(inpainting)------已知部分不动,未知部分生成。
技术亮点
  • 软掩码机制:对重叠区域的动作给予逐渐衰减的权重,越远未来越不确定,越近过去越确定。
  • 基于流匹配的引导生成:利用伪逆引导(IGDM)算法,在每次去噪步骤中加入约束,使生成的动作块与已执行部分一致。
  • 无需重新训练:适用于任何基于扩散或流匹配的VLA模型。

实验结果

仿真实验(Kinetix)
  • 12个高动态任务(如投掷、接住、平衡等)
  • RTC在推理延迟增加时,依然保持高成功率,远超其他方法(如时间集成、双向解码等)
真实机器人实验
  • 6个高难度双手操作任务(如点蜡烛、插网线、叠衣服)
  • RTC在所有延迟条件下(+0ms, +100ms, +200ms)都表现出最高的任务吞吐量(成功进度/时间)
  • 对比方法在高延迟下会导致机器人剧烈抖动,触发保护停机

总结与展望

RTC是一种轻量级、通用、鲁棒的实时动作执行方法,适用于任何流或扩散模型。它让机器人能够在高延迟条件下依然流畅、精准地完成任务。

未来工作可以探索:

  • 与更轻量级的系统1/系统2架构结合
  • 应用于更动态的任务(如四足机器人 locomotion)
  • 减少RTC本身的额外计算开销

二、论文详细中文解析(技术向)

1. 问题定义

  • 控制周期 (\Delta t):机器人控制器的采样时间(如20ms)
  • 推理延迟 (\delta):模型生成一个动作块所需时间
  • 预测视野 (H):一个动作块包含的动作数
  • 执行视野 (s):每个块中实际执行的动作数

如果 (\delta > \Delta t),则无法在下一个动作到来之前完成推理 → 需要异步执行

2. 异步执行的挑战

  • 如果在执行当前块的同时生成下一个块,可能会出现动作不连续(如一个块向上,另一个块向下)
  • 简单的时间集成(如加权平均)会导致动作无效(如超出物理限制)

3. RTC 的核心机制

3.1 修复(Inpainting)视角
  • 将新动作块视为对旧动作块的"补全"
  • 已知部分:已经被执行的动作(冻结)
  • 未知部分:未来的动作(生成)
3.2 引导生成公式

使用 IGDM(伪逆引导扩散模型)方法:

\\mathbf{v}*{\\mathrm{IGDM}} = \\mathbf{v} + \\min\\left(\\beta, \\frac{1 - \\tau}{\\tau \\cdot r* \\tau\^2}\\right) \\left(\\mathbf{Y} - \\widehat{\\mathbf{A}}\\right)\^\\top \\mathrm{diag}(\\mathbf{W}) \\frac{\\partial \\widehat{\\mathbf{A}}}{\\partial \\mathbf{A}}

其中:

  • (\mathbf{W}) 是掩码(软掩码或硬掩码)
  • (\mathbf{Y}) 是目标值(已执行的动作)
  • (\tau) 是流匹配时间步
3.3 软掩码设计
  • 前 (d) 个动作:权重 = 1(完全确定)
  • 中间区域:指数衰减权重
  • 最后 (s) 个动作:权重 = 0(完全未知)

4. 实验设计与结果分析

仿真环境:Kinetix
  • 动态任务(力控制,无法"暂停")
  • 加入动作噪声,强调闭环控制

结果

  • RTC 在延迟 (d = 4) 时仍保持高成功率
  • 软掩码优于硬掩码
  • 比 BID(双向解码)更快、更稳定
真实环境:(\pi_{0.5}) VLA
  • 双手臂 + 移动平台
  • 任务包括:点蜡烛、插网线、叠衣服等

结果

  • RTC 在任务吞吐量上显著优于同步推理和时间集成
  • 在高延迟下仍稳定运行,其他方法会触发安全停机
  • 在点蜡烛任务中,RTC 成功率更高

5. 方法局限性

  • 仅适用于扩散/流匹配模型
  • 增加了计算开销(反向传播)
  • 未在腿式机器人等更动态场景中验证

6. 未来方向

  • 结合系统1/系统2架构(如分层控制)
  • 降低 RTC 的额外计算成本
  • 扩展到更多动态任务(如四足机器人、无人机)

三、附录:关键公式与伪代码解读

流匹配更新公式

\\mathbf{A}_t\^{\\tau + \\frac{1}{n}} = \\mathbf{A}*t\^\\tau + \\frac{1}{n} \\mathbf{v}* \\pi(\\mathbf{A}_t\^\\tau, \\mathbf{o}_t, \\tau)

软掩码公式

\\mathbf{W}_i = \\begin{cases} 1 \& i \< d \\ c_i \\frac{e\^{c_i} - 1}{e - 1} \& d \\leq i \< H - s \\ 0 \& i \\geq H - s \\end{cases}

其中 (c_i = \frac{H - s - i}{H - s - d + 1})

算法流程(简化版)

  1. 初始化:当前块 (\mathbf{A}_{\mathrm{cur}}),延迟估计 (d)
  2. 主循环(GETACTION):
    • 返回当前块的下一个动作
    • 若已执行 (s) 个动作,触发后台推理
  3. 后台推理(INFERENCE LOOP):
    • 使用软掩码和引导生成新块
    • 替换当前块

四、总结

这篇论文提出了一种实用、高效、无需重新训练的实时动作执行方法,解决了大模型在机器人控制中"想得慢、动得抖"的问题。RTC 不仅在仿真中表现优异,在真实世界中也能稳定运行高精度任务,展示了其在实际部署中的巨大潜力。

相关推荐
[ ]8982 小时前
Stack_MLAG_知识点梳理
网络·笔记·网络协议
炽烈小老头2 小时前
【每天学习一点算法 2026/04/08】阶乘后的零
学习·算法
唐樽2 小时前
C++ 竞赛学习路线笔记
c++·笔记·学习
sensen_kiss2 小时前
CAN302 Technologies for E-Commerce 电子商务技术 Pt.6 市场营销与SEO(搜索引擎优化)
android·学习·搜索引擎
我的xiaodoujiao2 小时前
API 接口自动化测试详细图文教程学习系列9--Requests模块
python·学习·测试工具·pytest
乐园游梦记3 小时前
机器学习:监督学习与无监督学习由浅入深全解析
人工智能·深度学习·学习·机器学习
bobasyu3 小时前
Claude Code 源码笔记 -- queryLoop
java·笔记·spring
TMT星球3 小时前
智元A3发布即进租赁平台,擎天租成为机器人的“首发应用市场”
运维·机器人
woai33643 小时前
JVM学习-基础篇-常见引用
jvm·学习