阿里:具身智能模型ABot-M0

📖标题:ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

🌐来源:arXiv, 2602.11236v1

🌟摘要

构建跨不同硬件的通用体现代理仍然是机器人技术的核心挑战,通常被定义为"单脑多形式"范式。碎片化数据、不一致的表示和错位的训练目标阻碍了进展。我们提出了ABot-M0,这是一个框架,它构建了系统的数据管理管道,同时联合优化模型架构和训练策略,实现了异构原始数据端到端转换为统一、高效的表示。从六个公共数据集中,我们清理、标准化和平衡样本以构建UniACT数据集,这是一个大规模数据集,拥有超过600万轨迹和9,500小时的数据,涵盖了不同的机器人形态和任务场景。

统一预训练提高了跨平台和任务的知识转移和泛化,支持通用的具身智能。为了提高动作预测效率和稳定性,我们提出了动作流形假说:有效的机器人动作不在于完整的高维空间,而在于由物理定律和任务约束支配的低维、光滑流形上。基于此,我们引入了动作流形学习(AML),它使用DiT主干直接预测干净、连续的动作序列。这将学习从去噪转变为投影到可行流形上,提高了解码速度和策略稳定性。ABot-M0通过双流机制支持模块化感知,该机制将VLM语义学与几何先验和来自即插即用3D模块(如VGGT和Qwen-Image-Edit)的多视图输入集成在一起,在不修改主干的情况下增强空间理解,并减轻3D推理中的标准VLM限制。实验表明组件独立运行,具有附加优势。我们将发布所有代码和管道,以实现可重复性和未来的研究。

🛎️文章简介

🔸研究问题:如何在不依赖私有数据和定制硬件的前提下,构建能跨多种机器人形态与任务泛化的能力统一的具身智能基础模型?

🔸主要贡献:论文提出ABot-M0框架,通过系统性数据整合(UniACT-dataset)、动作流形学习(AML)与双流感知架构,首次实现开源数据驱动的高性能、硬件无关具身操作模型。

📝重点思路

🔸构建超大规模统一数据集UniACT,融合6个公开数据集,清洗格式、标准化为末端执行器增量动作+旋转向量表示,并采用pad-to-dual策略统一单/双臂建模。

🔸提出"动作流形假设",认为有效机器人动作分布于低维光滑流形而非高维噪声空间,据此设计动作流形学习(AML),用DiT直接预测干净动作序列,替代传统去噪范式。

🔸采用双流感知机制:VLM主干提取语义特征,插件式3D模块(如VGGT、Qwen-Image-Edit)注入几何先验,通过跨注意力融合,增强空间理解而不改动主干。

🔸采用两阶段训练:第一阶段在UniACT上统一预训练,第二阶段通过监督微调(SFT)注入3D空间先验,兼顾泛化性与执行精度。

🔸设计多层级加权采样策略(任务级均匀采样为主),平衡长尾技能与稀有形态覆盖,提升跨平台迁移能力。

🔎分析总结

🔸ABLATION实验证明各模块正交且增益可叠加:数据标准化、AML、3D注入分别带来显著提升,组合后在LIBERO达98.6%平均成功率。

🔸AML在低步数(2步)和大动作块(30步)下仍保持鲁棒,而噪声预测模型性能骤降23.6%,验证流形假设有效性及对高维动作空间的适应优势。

🔸最终层VLM特征优于中间层或拼接查询特征,表明机器人预训练已使深层表征高度适配动作空间,无需额外适配模块。

🔸跨基准测试显示强泛化:在LIBERO-Plus零样本扰动测试中达80.5%,RoboCasa达58.3%,RoboTwin 2.0随机场景达81.2%,全面超越π₀.₅、UniVLA等SOTA。

🔸3D注入中交叉注意力融合优于拼接与Q-Former;双视角合成比单视角在相机扰动子集提升14%,证实多视图对空间鲁棒性的关键作用。

💡个人观点

论文将数学流形思想深度融入机器人动作建模,从"学去噪"转向"学投影",大幅提升效率与稳定性,并打通数据---表示---架构---训练全链路。

🧩附录



相关推荐
肾透侧视攻城狮1 小时前
《掌握TensorFlow图像处理全链路:核心API详解、标准化/增强技巧、管道构建与高频问题解答》
人工智能·深度学习·tf.image 模块·keras预处理层处理图像·数据增强技术·tensorfl图像数据处理·自定义图像处理层
紫微AI2 小时前
站在奇点门槛上:风投转向、Agent爆发与AI时代的生存逻辑
大数据·人工智能
njsgcs2 小时前
有哪些比较好的蒸馏模型
人工智能
小鸡吃米…2 小时前
TensorFlow——Keras 框架
人工智能·python·tensorflow·keras
小陈Coding2 小时前
AI编程助手如何提升开发效率
人工智能·ai·软件开发·代码生成·编程助手·效率提升·技术文章
小王毕业啦2 小时前
2011-2024年 省、市北京大学数字普惠金融指数(xlsx)
大数据·人工智能·金融·数据挖掘·数据分析·社科数据·经管数据
Bruce_Liuxiaowei2 小时前
面对AI时代,关于“动手能力”的思索
人工智能
说私域2 小时前
流量思维向长效思维转型:开源链动2+1模式AI智能名片小程序赋能私域电商品牌建设
人工智能·小程序·开源·产品运营·私域运营
weixin_446260852 小时前
[特殊字符]提升强化学习效率的开源框架——slime
人工智能