AC-DiT: Adaptive Coordination DiffusionTransformer for Mobile Manipulation

这篇论文提出了AC-DiT(Adaptive Coordination Diffusion Transformer,自适应协调扩散 Transformer) ,是一款面向移动操作机器人的端到端控制框架,核心是解决移动底座与机械臂的协同控制难题,以及不同操作阶段的多模态感知适配问题。下面从研究背景、核心机制、模型架构、实验验证、核心结论五个维度为你讲清全貌:

一、研究背景:现有移动操作方法的两大痛点

移动操作机器人需同时控制移动底座 (负责导航)和机械臂(负责抓取 / 交互),完成家居场景下的语言指令任务,但传统方法存在明显缺陷:

  1. 底座与机械臂协同性不足现有方法未显式建模底座运动对机械臂的影响,高自由度下易产生误差累积 ------ 比如底座导航的微小偏差,会导致机械臂后续抓取完全失效。
  2. 感知模态固定化 全程使用单一感知输入(要么全 2D 图像、要么全 3D 点云),忽略了不同操作阶段的感知需求差异:
    • 目标定位阶段:需要 2D 图像的语义信息识别物体;
    • 精准交互阶段:需要 3D 点云的几何信息保证操作精度。

基于此,论文提出核心问题:能否构建一个端到端框架,同时实现底座 - 机械臂的协同控制和阶段化感知适配?

二、核心机制:AC-DiT 的两大创新设计

AC-DiT 通过两个关键机制解决上述痛点,实现移动操作的精准协调。

  1. Mobility-to-Body Conditioning(底座 - 躯体条件化机制) 核心逻辑是先提取底座运动特征,再作为先验指导全身动作预测,减少误差累积:

    • 步骤 1:在编码器后挂载一个轻量级底座动作头(基于 Diffusion Transformer),仅用底座动作数据预训练,学习底座运动的隐式特征(Latent Mobility Feature);
    • 步骤 2:将该隐式特征作为条件输入到全身动作预测头,让机械臂动作规划 "预判" 底座的运动趋势,实现底座与机械臂的协同控制。本质是让机械臂 "知道" 底座下一步要去哪,从而提前调整自身姿态,避免底座位移带来的操作偏差。
  2. Perception-aware Multimodal Adaptation(感知感知的多模态适配机制) 核心逻辑是动态调整 2D 图像与 3D 点云的融合权重,适配不同阶段的感知需求:

    • 步骤 1:将多视角 2D 图像(外部视角、手腕视角)、3D 点云、语言指令的特征,通过 MLP 投影到统一特征空间;
    • 步骤 2:计算各视觉模态与语言指令特征的余弦相似度,作为该模态的重要性权重;
    • 步骤 3:根据权重生成阶段化感知特征 ------ 比如语义识别时提升 2D 权重,精准操作时提升 3D 权重,同时自动降低无效视角(如只拍到地板的图像)的影响。

三、模型架构:AC-DiT 的整体结构

AC-DiT 是基于SigLIP(多模态基础模型)的端到端扩散 Transformer 架构,分为三大模块:

  1. 多模态编码器
    • 2D 编码器:用 SigLIP 提取外部、左手腕、右手腕三个视角的图像特征;
    • 3D 编码器:通过 3D Tokenizer 将点云转化为 SigLIP 兼容的序列,再用 LoRA 适配器微调,提取几何特征;
    • 文本编码器:用 SigLIP 提取语言指令的语义特征。
  2. 双动作头
    • 轻量级底座动作头:预训练阶段学习底座运动特征,参数仅 1.7 亿;
    • 移动操作动作头:接收底座隐式特征和适配后的多模态感知特征,输出底座 + 机械臂的联合动作。
  3. 训练目标
    • 预训练阶段:仅微调 3D 编码器的 LoRA 和底座动作头,用去噪 MSE 损失监督底座动作预测;
    • 全模型训练阶段:冻结 SigLIP 主干,更新其余模块,用去噪 MSE 损失监督全身动作预测。

四、实验验证:仿真 + 真实场景的全面评估

论文在仿真环境真实机器人平台上验证 AC-DiT 的性能,同时通过消融实验验证核心机制的有效性。

  1. 仿真实验

    • 平台 1:ManiSkill-HAB(家居移动操作,7 个任务:取苹果、开冰箱、开关抽屉等)AC-DiT 平均成功率达 55.6%,远超 ACT(23.6%)、DP(28.8%)、RDT(42.9%)等基线,尤其在 "开冰箱门"(90.7%)、"关抽屉"(97.3%)等协同性要求高的任务上优势显著;
    • 平台 2:RoboTwin(双臂操作,6 个任务:物体交接、瓶子抓取等)AC-DiT 平均成功率 90.1%,大幅领先 3DP(73.3%)和 RDT(70.0%),验证了机制可扩展到双臂协同场景。
  2. 真实场景实验

    • 硬件平台:Agilex Cobot Magic(4 个 Piper 机械臂 + Tracer 移动底座,多相机 + 深度传感器);
    • 任务:4 个长程任务(黄瓜入篮、收纳面包、挂毛巾、清理桌面);
    • 结果:AC-DiT 在子任务(如抓取、放置)和整体任务的成功率均优于 ACT 和 π₀,且能动态调整感知权重(如抓取纸巾时提升手腕相机和点云权重,导航时提升外部相机权重)。
  3. 消融实验

    • 仅用 2D 输入:平均成功率 37.5%;
    • 加入 3D 多模态融合:提升至 44.8%;
    • 再加入底座 - 躯体条件化:提升至 47.0%;
    • 全模型(双机制):达 49.0%,证明两大机制均为性能提升的关键。

五、核心结论与局限性

  1. 结论AC-DiT 通过底座 - 躯体条件化和多模态感知适配,实现了移动底座与机械臂的精准协同,在仿真和真实场景中均超越 SOTA 方法,且可扩展到双臂操作任务。
  2. 局限性
    • 依赖模仿学习,性能受数据集数量和质量影响;
    • 存在双臂协同偏差、底座运动速度控制误差等真实场景失效案例。
相关推荐
龙腾亚太11 天前
大模型十大高频问题一:RAG(检索增强生成)和微调,哪个更适合我的业务场景?
llm·知识图谱·数字孪生·vla·人工智能大模型
想要成为计算机高手12 天前
π*0.6: 从实践中学习 -- 2025.11.17 -- Physical Intelligence (π) -- 未开源
人工智能·学习·机器人·多模态·具身智能·vla
自动驾驶小学生2 个月前
端到端与世界模型(2):基于认知驱动的自动驾驶3.0
vla
xwz小王子3 个月前
Long-VLA:释放机器人长范围操作视觉-语言-动作模型的能力
vla
深蓝学院3 个月前
盘点完今年CoRL最火的VLA论文,发现最强的机器人,竟是用“假数据”喂大的
机器人·vla
想要成为计算机高手4 个月前
RoboTwin--CVPR2025--港大--2025.4.17--开源
机器人·具身智能·vla·robotwin
带电的小王4 个月前
OpenVLA: 论文阅读 -- 开源视觉-语言-行动模型
vla·openvla
想要成为计算机高手5 个月前
10. isaacsim4.2教程-RTX Lidar 传感器
数码相机·机器人·ros·仿真·具身智能·vla·isaacsim
贾全5 个月前
【中文翻译】SmolVLA:面向低成本高效机器人的视觉-语言-动作模型
人工智能·机器人·大模型·vla·smolvla