当具身智能从「视觉模拟」迈向「空间理解」,强大的AI基础设施正是这场技术跃迁的底层引擎
近日,由清华大学牵头、联合上海交通大学、香港大学、新加坡国立大学等多所顶尖高校与研究机构共同推出的全球具身世界模型基准评测 WorldArena 更新最新榜单。由中科院自动化所、中科第五纪共同打造的具身世界模型 FlowWAM,在 Physics Adherence(物理遵循)和 3D Accuracy(3D 准确度)两大核心维度上斩获双料第一,成功登顶。
这一成果的背后,阿里云人工智能平台 PAI 提供高性能计算服务与全流程训练支撑,助力 FlowWAM 高效迭代。

WorldArena:具身世界模型最全面的「考场」
与以往侧重画面质量的评测不同,WorldArena 构建了一套覆盖感知与功能的双维度评测体系,是目前最为全面的具身世界模型评测框架。
在视频感知质量方面,WorldArena 设置了 6 大维度、16 项细分指标,包括视觉质量、运动质量、内容一致性、物理遵循、3D 准确度和可控性,从多个角度衡量世界模型生成视频的真实程度。在此基础上,WorldArena 还提出了 EWMScore 综合指标,将 16 项指标归一化后取均值,形成单一可解释的整体评分。
在具身任务功能方面,WorldArena 进一步考察模型在三个下游任务中的实际表现:作为数据引擎(Data Engine)为策略模型生成合成训练数据的能力,作为策略评估器(Policy Evaluator)替代仿真环境评估策略表现的能力,以及作为动作规划器(Action Planner)在闭环中直接输出动作序列完成任务的能力。
这种「感知 + 功能」双轨并行的评测思路,使得 WorldArena 能够更真实地反映一个世界模型在具身智能系统中的综合价值。
FlowWAM 登顶:从「看起来真」到「物理上对」
FlowWAM 在物理遵循和 3D 准确度两个维度上均位列所有参评模型之首,展现出强大的空间认知能力。
物理遵循维度第一。 在交互质量(Interaction Quality)方面,FlowWAM 生成的机器人动作在接触行为、力传导等关键环节展现了很高的真实性,有效缓解了生成式模型常见的「虚假交互」问题。在轨迹准确度(Trajectory Accuracy)方面,其时空对齐表现居所有模型之首,意味着模型预测的不仅是视觉上合理的画面,更是符合物理规律的精确作业路径。
3D 准确度维度第一。 在深度准确性(Depth Accuracy)方面,FlowWAM 生成的几何结构与真实场景高度吻合,有效缓解了单目视觉下常见的尺度歧义问题。在透视合理性(Perspectivity)方面,无论是随深度变化的尺度缩放,还是复杂的光影遮挡关系,均展现出极强的三维空间逻辑。
两大维度的同时登顶,标志着 FlowWAM 已经超越了「生成逼真视频」的层面,真正具备了对物理世界进行理解和推理的能力。对于下游的机器人操作任务而言,这意味着更精准的路径预测、更可靠的空间感知,以及更强的跨场景泛化潜力。
阿里云人工智能平台 PAI:具身世界模型背后的算力底座
具身世界模型的训练复杂度远超传统视频生成任务。一方面,模型需要从海量视频数据中学习物理交互规律和三维空间结构;另一方面,研究团队需要频繁进行大规模实验迭代,快速验证不同架构设计和训练策略的效果。这对底层计算平台的算力规模、调度效率和工程稳定性都提出了很高的要求。
在 FlowWAM 的研发过程中,阿里云人工智能平台 PAI 为团队提供了全方位的计算服务保障:
大规模分布式训练能力。 PAI 平台原生支持大规模 GPU 集群的高效调度与通信优化,能够在多节点间实现稳定的梯度同步与数据并行。对于 FlowWAM 这类参数量大、视频数据吞吐要求高的具身世界模型,PAI 提供了坚实的训练底座,显著缩短了从实验构想到结果验证的迭代周期。
灵活的资源弹性与实验管理。 从大规模视频数据的预处理,到多组超参数配置的并行对比实验,再到训练过程中的监控与断点恢复,PAI 提供了贯穿模型研发全流程的工具链支持。这让研究团队能够将更多精力聚焦于算法创新本身,而非基础设施的搭建与运维。
面向具身智能场景的深度适配。 具身世界模型并非简单的视频生成任务,它涉及视频预测、光流估计、空间推理等多种模态和训练范式的融合。PAI 平台在异构计算资源管理、大规模数据流水线编排、多任务训练调度等方面的长期积累,为这类复杂场景提供了有力的工程支撑。
FlowWAM 的成功登顶,是前沿算法创新与高性能基础设施深度协同的成果。阿里云 PAI 正在成为具身智能时代不可或缺的 AI 基础设施底座。
从实验室到产业:国产具身智能的加速时刻
在 WorldArena 榜单前列,来自中国团队和科研机构的身影越来越多。这一趋势表明,在全球具身智能竞赛中,中国力量正在核心技术层面加速突破。
相比于海外团队在通用视频生成上的先发优势,国内具身智能赛道正展现出更强的垂直纵深:从感知到认知,不再满足于「看懂画面」,而是追求对物理世界的深度理解;从仿真到落地,切实将模型能力转化为工业制造、仓储物流、智能服务等场景中的实际生产力。
随着 2026 年成为具身智能关键的应用元年,阿里云将持续深化与顶尖科研力量的合作,以 PAI 平台为核心,为具身智能的技术探索与产业落地提供坚实的算力与工程支撑,共同推动具身智能从实验室走向真实世界。