【学习笔记】让机器人“边想边动”——实时动作分块流策略的执行方法

引言：机器人"思考"太慢怎么办？

想象一下：你让机器人帮你点一根蜡烛。它拿起火柴，正要划燃时，突然"愣住"了------因为它在"思考"下一步该怎么做。这个"愣住"的时间，可能只有零点几秒，但对于一个需要精确动作的任务来说，足以导致失败。

现代机器人控制模型（尤其是视觉-语言-动作模型，VLA）虽然强大，但推理速度慢 。更糟糕的是，机器人是物理系统，世界不会等它"想完"。这就是实时控制的挑战。

传统方法的困境

同步推理：机器人执行一段动作后，停下来等模型生成下一段动作。问题是：模型生成动作的时间可能比执行时间长，导致机器人"卡顿"。
动作分块 ：一次性生成多个动作，执行一部分，再生成下一批。虽然减少了推理频率，但在块与块之间容易产生不连续的"跳跃"动作，尤其在模型推理延迟较大时更明显。

我们的方法：Real-Time Chunking (RTC)

我们提出了一种无需重新训练 的推理算法，能让模型边执行边思考，同时保证动作的平滑性和连续性。

核心思想：像"修图"一样补全动作

当机器人在执行当前动作块时，我们已经在后台生成下一个动作块。
如果新块生成得慢，我们就"冻结"那些已经被执行的动作，只补全未来的部分。
这个过程类似于图像修复（inpainting）------已知部分不动，未知部分生成。

技术亮点

软掩码机制：对重叠区域的动作给予逐渐衰减的权重，越远未来越不确定，越近过去越确定。
基于流匹配的引导生成：利用伪逆引导（IGDM）算法，在每次去噪步骤中加入约束，使生成的动作块与已执行部分一致。
无需重新训练：适用于任何基于扩散或流匹配的VLA模型。

实验结果

仿真实验（Kinetix）

12个高动态任务（如投掷、接住、平衡等）
RTC在推理延迟增加时，依然保持高成功率，远超其他方法（如时间集成、双向解码等）

真实机器人实验

6个高难度双手操作任务（如点蜡烛、插网线、叠衣服）
RTC在所有延迟条件下（+0ms, +100ms, +200ms）都表现出最高的任务吞吐量（成功进度/时间）
对比方法在高延迟下会导致机器人剧烈抖动，触发保护停机

总结与展望

RTC是一种轻量级、通用、鲁棒的实时动作执行方法，适用于任何流或扩散模型。它让机器人能够在高延迟条件下依然流畅、精准地完成任务。

未来工作可以探索：

与更轻量级的系统1/系统2架构结合
应用于更动态的任务（如四足机器人 locomotion）
减少RTC本身的额外计算开销

二、论文详细中文解析（技术向）

1. 问题定义

控制周期 (\Delta t)：机器人控制器的采样时间（如20ms）
推理延迟 (\delta)：模型生成一个动作块所需时间
预测视野 (H)：一个动作块包含的动作数
执行视野 (s)：每个块中实际执行的动作数

如果 (\delta > \Delta t)，则无法在下一个动作到来之前完成推理 → 需要异步执行。

2. 异步执行的挑战

如果在执行当前块的同时生成下一个块，可能会出现动作不连续（如一个块向上，另一个块向下）
简单的时间集成（如加权平均）会导致动作无效（如超出物理限制）

3. RTC 的核心机制

3.1 修复（Inpainting）视角

将新动作块视为对旧动作块的"补全"
已知部分：已经被执行的动作（冻结）
未知部分：未来的动作（生成）

3.2 引导生成公式

使用 IGDM（伪逆引导扩散模型）方法：

\\mathbf{v}*{\\mathrm{IGDM}} = \\mathbf{v} + \\min\\left(\\beta, \\frac{1 - \\tau}{\\tau \\cdot r* \\tau\^2}\\right) \\left(\\mathbf{Y} - \\widehat{\\mathbf{A}}\\right)\^\\top \\mathrm{diag}(\\mathbf{W}) \\frac{\\partial \\widehat{\\mathbf{A}}}{\\partial \\mathbf{A}}

其中：

(\mathbf{W}) 是掩码（软掩码或硬掩码）
(\mathbf{Y}) 是目标值（已执行的动作）
(\tau) 是流匹配时间步

3.3 软掩码设计

前 (d) 个动作：权重 = 1（完全确定）
中间区域：指数衰减权重
最后 (s) 个动作：权重 = 0（完全未知）

4. 实验设计与结果分析

仿真环境：Kinetix

动态任务（力控制，无法"暂停"）
加入动作噪声，强调闭环控制

结果：

RTC 在延迟 (d = 4) 时仍保持高成功率
软掩码优于硬掩码
比 BID（双向解码）更快、更稳定

真实环境：(\pi_{0.5}) VLA

双手臂 + 移动平台
任务包括：点蜡烛、插网线、叠衣服等

结果：

RTC 在任务吞吐量上显著优于同步推理和时间集成
在高延迟下仍稳定运行，其他方法会触发安全停机
在点蜡烛任务中，RTC 成功率更高

5. 方法局限性

仅适用于扩散/流匹配模型
增加了计算开销（反向传播）
未在腿式机器人等更动态场景中验证

6. 未来方向

结合系统1/系统2架构（如分层控制）
降低 RTC 的额外计算成本
扩展到更多动态任务（如四足机器人、无人机）

三、附录：关键公式与伪代码解读

流匹配更新公式

\\mathbf{A}_t\^{\\tau + \\frac{1}{n}} = \\mathbf{A}*t\^\\tau + \\frac{1}{n} \\mathbf{v}* \\pi(\\mathbf{A}_t\^\\tau, \\mathbf{o}_t, \\tau)

软掩码公式

\\mathbf{W}_i = \\begin{cases} 1 \& i \< d \\ c_i \\frac{e\^{c_i} - 1}{e - 1} \& d \\leq i \< H - s \\ 0 \& i \\geq H - s \\end{cases}

其中 (c_i = \frac{H - s - i}{H - s - d + 1})

算法流程（简化版）

初始化：当前块 (\mathbf{A}_{\mathrm{cur}})，延迟估计 (d)
主循环（GETACTION）：
- 返回当前块的下一个动作
- 若已执行 (s) 个动作，触发后台推理
后台推理（INFERENCE LOOP）：
- 使用软掩码和引导生成新块
- 替换当前块

四、总结

这篇论文提出了一种实用、高效、无需重新训练的实时动作执行方法，解决了大模型在机器人控制中"想得慢、动得抖"的问题。RTC 不仅在仿真中表现优异，在真实世界中也能稳定运行高精度任务，展示了其在实际部署中的巨大潜力。