阿里：具身智能模型ABot-M0

📖标题：ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

🌐来源：arXiv, 2602.11236v1

🌟摘要

构建跨不同硬件的通用体现代理仍然是机器人技术的核心挑战，通常被定义为"单脑多形式"范式。碎片化数据、不一致的表示和错位的训练目标阻碍了进展。我们提出了ABot-M0，这是一个框架，它构建了系统的数据管理管道，同时联合优化模型架构和训练策略，实现了异构原始数据端到端转换为统一、高效的表示。从六个公共数据集中，我们清理、标准化和平衡样本以构建UniACT数据集，这是一个大规模数据集，拥有超过600万轨迹和9,500小时的数据，涵盖了不同的机器人形态和任务场景。

统一预训练提高了跨平台和任务的知识转移和泛化，支持通用的具身智能。为了提高动作预测效率和稳定性，我们提出了动作流形假说：有效的机器人动作不在于完整的高维空间，而在于由物理定律和任务约束支配的低维、光滑流形上。基于此，我们引入了动作流形学习（AML），它使用DiT主干直接预测干净、连续的动作序列。这将学习从去噪转变为投影到可行流形上，提高了解码速度和策略稳定性。ABot-M0通过双流机制支持模块化感知，该机制将VLM语义学与几何先验和来自即插即用3D模块（如VGGT和Qwen-Image-Edit）的多视图输入集成在一起，在不修改主干的情况下增强空间理解，并减轻3D推理中的标准VLM限制。实验表明组件独立运行，具有附加优势。我们将发布所有代码和管道，以实现可重复性和未来的研究。

🛎️文章简介

🔸研究问题：如何在不依赖私有数据和定制硬件的前提下，构建能跨多种机器人形态与任务泛化的能力统一的具身智能基础模型？

🔸主要贡献：论文提出ABot-M0框架，通过系统性数据整合（UniACT-dataset）、动作流形学习（AML）与双流感知架构，首次实现开源数据驱动的高性能、硬件无关具身操作模型。

📝重点思路

🔸构建超大规模统一数据集UniACT，融合6个公开数据集，清洗格式、标准化为末端执行器增量动作+旋转向量表示，并采用pad-to-dual策略统一单/双臂建模。

🔸提出"动作流形假设"，认为有效机器人动作分布于低维光滑流形而非高维噪声空间，据此设计动作流形学习（AML），用DiT直接预测干净动作序列，替代传统去噪范式。

🔸采用双流感知机制：VLM主干提取语义特征，插件式3D模块（如VGGT、Qwen-Image-Edit）注入几何先验，通过跨注意力融合，增强空间理解而不改动主干。

🔸采用两阶段训练：第一阶段在UniACT上统一预训练，第二阶段通过监督微调（SFT）注入3D空间先验，兼顾泛化性与执行精度。

🔸设计多层级加权采样策略（任务级均匀采样为主），平衡长尾技能与稀有形态覆盖，提升跨平台迁移能力。

🔎分析总结

🔸ABLATION实验证明各模块正交且增益可叠加：数据标准化、AML、3D注入分别带来显著提升，组合后在LIBERO达98.6%平均成功率。

🔸AML在低步数（2步）和大动作块（30步）下仍保持鲁棒，而噪声预测模型性能骤降23.6%，验证流形假设有效性及对高维动作空间的适应优势。

🔸最终层VLM特征优于中间层或拼接查询特征，表明机器人预训练已使深层表征高度适配动作空间，无需额外适配模块。

🔸跨基准测试显示强泛化：在LIBERO-Plus零样本扰动测试中达80.5%，RoboCasa达58.3%，RoboTwin 2.0随机场景达81.2%，全面超越π₀.₅、UniVLA等SOTA。

🔸3D注入中交叉注意力融合优于拼接与Q-Former；双视角合成比单视角在相机扰动子集提升14%，证实多视图对空间鲁棒性的关键作用。

💡个人观点

论文将数学流形思想深度融入机器人动作建模，从"学去噪"转向"学投影"，大幅提升效率与稳定性，并打通数据---表示---架构---训练全链路。

阿里：具身智能模型ABot-M0

🌟摘要

🛎️文章简介

📝重点思路

🔎分析总结

💡个人观点

🧩附录