北京通用人工智能研究院(BIGAI)联合深圳市人工智能与机器人研究院(AIRS)、香港中文大学(深圳)、华盛顿大学圣路易斯分校等国内外顶尖机构,提出了一种名为"意图对齐模仿学习"(Intention-Aligned Imitation Learning, IAIL)的通用框架,首次成功实现了无人机、无人船、轮足机器人、人形机器人及单双臂机械手等7类形态迥异机器人之间的基于意图理解的自适应模仿与协作。该成果于2026年3月18日发表于国际顶级期刊《Science Robotics》,标志着跨体型机器人协作领域取得重大突破。在涵盖30个多步协作场景的真机实验中,该框架取得了92%的任务成功率,展现出卓越的跨形态泛化能力与实际部署潜力。

在机器人技术飞速发展的当下,从工业产线的柔性制造到灾后救援的多机协同,再到太空探索中的异构编队作业,越来越多的现实场景对异构机器人团队的协作能力提出了迫切需求。所谓异构机器人(Cross-embodiment),是指那些在物理形态、运动模态和感知能力上存在本质差异的机器人系统------例如天上飞的无人机、水中游的无人船、地面跑的轮式/足式机器人,以及桌上操作的机械臂等。
然而,如何让这些形态各异的机器人能够相互"理解"并协作完成任务,长期以来一直是机器人学领域的核心挑战之一。传统的模仿学习(Imitation Learning)作为机器人技能获取的主流范式,其成功往往受限于示教者与学习者之间的直接运动映射关系------这要求两者具有相同或相似的物理构型。传统方法的核心假设是,示教者与学习者共享一个可比较的运动空间或不变的身体组件,通过逐步复制底层运动轨迹来实现技能迁移。这种范式在同构机器人之间尚能发挥作用,但面对形态迥异的异构机器人时便束手无策。
值得关注的是,研究团队从认知科学中的"理性模仿"(Rational Imitation)理论获得了关键启发。发展心理学研究表明,人类学习者(包括婴幼儿)在模仿时会优先再现示教者的推断目标(inferred goals),而非精确复制其运动模式。当观察到某人试图打开盒子却用了错误的方式时,人类会直接打开盒子而非复制那个错误动作;同样,当相同的动作目标可以通过更简便的方式实现时,人类会自发选择替代方案。这种"理性模仿"能力使得人类能够跨越形态差异实现行为迁移,婴儿甚至能从成人示范中提取抽象意图。
这一发现引出了一个根本性的科学问题:能否让机器人也具备这种基于意图理解的跨形态模仿能力? 即,不再追求运动轨迹的低层次对齐,而是在更高层次的语义空间中建立跨机器人的行为关联?

核心内容解析
从"复制运动"到"理解意图"的范式转变
研究团队提出的意图对齐模仿学习(IAIL)框架,其核心理念可以概括为一句话:"不对齐运动,对齐意图"(Beyond Form and Function)。这一范式从根本上改变了模仿学习的对应粒度------从底层运动轨迹的逐步映射,上升到高层任务意图的语义对齐。
IAIL框架的创新架构包含三个相互协作的核心组件,它们共同构成了一个完整的跨体型行为适应系统:
第一,上下文感知运动生成模块(Context-aware Motion Generation)
该模块为每个机器人独立训练基于变分自编码器(VAE)的状态条件生成模型。给定当前状态,模型能够生成安全、可执行的候选动作序列。关键设计在于:各机器人的生成模型完全独立训练,无需任何跨机器人数据共享,这极大降低了系统的部署门槛。每个机器人可以保留其专属的运动生成能力,同时通过意图空间实现跨体型协作。
第二,运动意图提取模块(Motion Intention Extraction)
这是整个框架的核心创新所在。系统为每个机器人训练特定的运动编码器,同时训练所有机器人共享的注释编码器,两者通过对比学习目标函数联合优化。语言注释作为语义监督信号,驱动具有相同意图的动作------无论来自何种形态的机器人------在嵌入空间中聚集。这意味着,无人机的盘旋动作和机械臂的抓取动作,如果具有相同的任务意图,就会在共享意图空间中彼此靠近。
第三,基于意图相似度的运动关联模块(Motion Association via Intention Similarity)
在共享意图空间中,系统计算示教者动作嵌入与学习者所有候选动作嵌入之间的余弦相似度,选取距离最近的候选动作作为执行方案。这一机制允许一个机器人"理解"另一个机器人示范的行为意图,并在自身形态约束下找到最接近的运动实现。更重要的是,当相似度低于预设阈值时,系统会判定当前机器人不具备执行该示教意图的能力,主动保持待机而非冒险执行------这是一种保守而理性的决策策略。
架构设计哲学:模块化与统一性的平衡
与近年来Open X-Embodiment、Octo、OpenVLA、HPT等致力于从大规模异构数据中学习通用策略或表征的方法不同,IAIL采取了一种截然不同的技术路线。它不追求训练跨所有机器人的单一通用策略模型------这在异构形态间的物理约束差异巨大时往往难以优化------而是为每个机器人保留独立的运动生成模型以尊重其物理约束,同时通过构建跨机器人的共享意图空间实现异构体型间的行为关联与迁移。
这种"模块化生成 + 统一意图空间"的架构兼具灵活性与可扩展性。每个机器人可以独立进化其运动能力,而意图空间则作为语义桥梁,使不同形态的机器人能够相互理解和协作。

关键数据
-
7类异构机器人:实验平台涵盖Cuboat水面全向移动机器人、Tello无人机、轮足复合机器人、人形机器人、单臂机械手、双臂协作机械手等多种形态各异的机器人系统
-
30个多步协作场景:团队搭建了涵盖30个复杂协作场景的真机实验环境,全面评估IAIL框架的跨形态泛化能力
-
92%任务成功率:在涵盖30个多步协作场景的真机实验中,IAIL框架取得了92%的任务成功率
-
7家国内外顶尖机构:研究团队来自北京通用人工智能研究院、深圳市人工智能与机器人研究院、香港中文大学(深圳)、华盛顿大学圣路易斯分校等机构
-
2026年3月发表于Science Robotics:该成果发表在国际机器人学顶级期刊,标志着跨体型机器人协作领域的重要里程碑
影响分析
IAIL框架的提出对机器人学领域具有深远的理论意义和实践价值。
理论层面,该研究首次系统性地将认知科学中的"理性模仿"理论引入机器人领域,建立了"运动-意图-语义"三层映射框架,为跨体型模仿学习提供了新的理论范式。这一框架跳出了传统的"同构映射"思维定式,证明了在高层意图空间中建立跨形态语义对应关系的可行性与有效性。
应用层面,IAIL框架为异构机器人团队的协同作业提供了切实可行的技术路径。在工业柔性制造场景中,可以实现不同类型机器人的快速任务分配与协作;在灾害救援场景中,无人机、地面机器人、水上设备可以协同执行复杂任务;在太空探索中,异构编队机器人可以灵活应对未知环境。92%的任务成功率表明,该框架已经具备实际部署的潜力。
产业层面,IAIL框架的模块化设计降低了异构机器人协作的门槛。每个机器人可以独立训练运动模型,无需跨机器人数据共享,这意味着企业可以根据自身需求灵活配置机器人团队,而不必依赖统一的硬件平台。
编辑点评
这项研究让我想起了人工智能领域那句经典的话:"真正的智能不是复制行为,而是理解意图。"北京通用人工智能研究院联合国内外顶尖团队提出的IAIL框架,正是这一理念在机器人学领域的生动实践。
长期以来,跨体型机器人协作之所以困难重重,根本原因在于我们过于执着于"如何做"的低层次运动映射,而忽视了"做什么"的高层次意图理解。IAIL框架的创新在于,它不再要求无人机去"复制"机械臂的具体动作,而是让两种截然不同的机器人能够理解彼此的行为意图,并在各自的物理约束下找到最优的运动实现。
更难能可贵的是,这项工作不仅停留在仿真验证层面,而是真正在7类真实机器人、30个复杂场景中检验了框架的有效性。92%的任务成功率,对于一个如此早期的研究来说,已经是相当亮眼的成绩。
当然,挑战依然存在。IAIL框架目前依赖于语言注释作为意图监督信号,如何在更多样的任务场景中高效获取意图标注,仍是值得探索的问题。此外,当异构机器人之间的意图空间出现较大差异时,系统如何自适应调整阈值、实现更平滑的能力边界过渡,也需要进一步研究。
但无论如何,这项工作为异构机器人协作开辟了一条新路径。正如论文标题所言------"Cross-robot behavior adaptation through intention alignment"------当我们学会对齐意图而非对齐运动,形态的壁垒便会悄然消融。