【论文阅读】RLDX-1

快速了解部分

本文提出了一种名为RLDX-1的通用机器人策略模型，通过整合视觉、语言、动作以及触觉/扭矩等物理信号，并配合合成数据和推理优化，让机器人（尤其是人形机器人）能像人一样灵活地处理复杂的动态和接触丰富的操作任务。

现有的VLA模型虽然具备强大的视觉理解和泛化能力，但在处理真实世界的复杂任务时存在短板：

核心是一个名为** Multi-Stream actioinTransformer (MSAT)的架构，它将视觉、语言、动作、物理信号（触觉/扭矩）分开处理再融合。配合 三阶段训练**（预训练+中段训练+后训练）和合成数据，让模型具备上述缺失的能力。

作者想表达：通用的机器人智能不仅需要强大的视觉语言理解能力，更需要具备运动感知、长期记忆和物理触觉这三项核心功能。通过系统性的架构设计和数据工程，RLDX-1证明了这些功能可以被统一在一个端到端的模型中，并显著提升机器人在真实复杂环境（如传送带抓取、插拔、倒水）中的操作成功率。

架构创新 (MSAT)：不同于以往将所有信息强行塞进VLM的做法，RLDX-1设计了独立的"物理流"和"认知流"，既能处理物理信号，又能通过"认知token"提取视觉语言中的动作相关信息。
物理感知集成：明确引入了触觉和扭矩信号作为输入，并训练模型预测未来的物理信号，使其在视觉受限（如插头被手挡住）时依然能完成任务。
合成数据流水线：利用视频生成模型生成难以采集的稀有灵巧操作数据（如倒水、拧灯泡），并用"运动一致性过滤"保证生成的动作是物理上合理的。

RLDX-1的模型架构就像一个交响乐团：

数据：混合了公开数据、自家采集的带物理传感器数据、以及利用视频生成模型制作的合成数据（用于补充稀有场景）。
训练：
- 预训练：在大规模多形态数据上学习通用操作。
- 中段训练：注入特定能力（如给ALLEX人形机器人加上记忆和物理感知模块，并进行训练）。
- 后训练：针对具体任务微调，甚至结合强化学习（RL）进行优化。
推理优化：通过静态图转换和定制内核，将推理延迟降低到43.7ms，满足实时控制需求。

评估方式：在模拟环境（LIBERO, RoboCasa）和真实机器人（ALLEX人形机器人、Franka Research 3机械臂）上进行测试。
数据：使用了Open-X-Embodiment、DROID等公开数据集，以及自采的ALLEX和Franka数据，还生成了合成数据。
结论：
- 在模拟基准测试中全面超越了π0.5、GR00T N1.6等前沿模型。
- 在真实世界的ALLEX人形机器人 任务中（如传送带抓取、找卡片、倒水），成功率高达86.8%，而对比的基线模型（π0.5和GR00T）仅在40%左右。
- 证明了引入物理信号和记忆模块能显著提升特定任务（如插拔、猜杯子）的成功率。

GR00T N1.6 (NVIDIA GEAR, Dec. 2025) <2025.12>：这是本文最主要的竞争对手和对比基线，RLDX-1在多个指标上旨在超越它。
Qwen3-VL Technical Report (Bai et al., Nov. 2025) <2025.11>：RLDX-1模型的视觉语言基础骨干，是其感知能力的来源。
RECAP (Amin et al., Nov. 2025) <2025.11>：RLDX-1在后训练阶段采用的强化学习框架的基础，用于提升模型在困难任务上的表现。

少见的韩国公司工作。引入了触觉和扭矩这种物理信号输入。

还有一些Critic、多阶段训练的实验。