云栖实录 | 从多模态数据到 Physical AI,PAI 助力客户快速启动 Physical AI 实践

本文根据 2025云栖大会演讲整理而成,演讲信息如下:

演讲人:黄博远(阿里云智能集团计算平台事业部人工智能平台 PAI 产品负责人)

演讲主题:从多模态数据到 Physical AI,阿里云 PAI 助力客户快速启动 Physical AI 实践

在大模型能力不断突破的今天,Physical AI 与 Generative AI 两大技术正在加速融合,推动 AI 从虚拟数字空间向真实物理世界迁移。

一方面,大模型的生成能力正在颠覆 Physical AI 训练范式 ,过去 Physical AI 训练依托传统计算机图形学和物理学通过仿真模拟提升模型精度,现在借助 Generative AI 即可生成海量训练数据,加速策略学习的过程;另一方面,物理定律、因果机制是模型训练重要的 ground truth,在训练过程中融合多模态感知数据、环境动力学模型与强化学习反馈,可提升模型在物理世界中的因果推理能力,形成闭环的"感知-决策-执行-学习"系统。

可以说,Physical AI 进化的下一站是"全知全感"的 AI 模型,支撑这样的模型需要"多维异构"的 AI 平台,尤其在多模态异构数据管理、异构框架调度与算力管理、异构部署方面。此外,Physical AI 开发涉及仿真、控制、模仿学习多个领域,对开发者而言,易用的端到端开发平台也至关重要。

2025云栖大会上,阿里云与 NVIDIA 宣布合作,PAI 将集成 NVIDIA Isaac Sim、Isaac Lab、NVIDIA Cosmos、Physical AI 数据集在内的 NVIDIA Phsyical AI 软件栈 ,并结合阿里云在规模化数据计算、高性能AI训练推理、大数据AI一体化开发等领域的体系化能力,形成覆盖数据预处理、仿真数据生成、模型训练评估、机器人强化学习、仿真测试在内的****全链路平台支撑,让 Physical AI 领域开发者充分享受云的弹性与灵活,加速 Physical AI 创新落地。

Phyiscal AI 五大场景最佳实践

目前,PAI 平台内已经上架了遥操数据采集、数据合成、数据增强、机器人模仿学习、验证测试全环节五大场景的最佳实践,以 Notebook 形式供开发者开箱即用。

1、遥感数据采集

PAI - Notebook Gallery >> 遥操数据采集&扩增以及Isaac-GR00T微调&评估全流程

PAI 支持使用 GR00T-Teleop 进行数据采集,使用GR00T-Mimic 进行数据扩增后,由 Isaac-GR00T 在小数据集上进行微调,并支持在 IsaacLab 中进行效果的评估。

视频演示:cloud.video.taobao.com/vod/RlrNEhJ...

2、数据合成

PAI - Notebook Gallery >> 操作动作数据合成&增强以及模仿学习

PAI 支持使用交互式建模 PAI-DSW、分布式训练PAI-DLC、模型推理服务PAI-EAS等平台工具和产品,结合 Isaac Lab的数据合成&扩增、模仿学习功能与Cosmos模型的视觉增强能力,生成大规模演示数据来训练对视觉变化具有鲁棒性的模仿学习策略。

使用PAI 进行多模态数据合成,有效实现成本降低和效率提升:利用闲时算力执行数据合成任务,资源成本下降超 50%;数据合成结果实时打标、预处理、入管理,数据流转效率提升超 80%;内置Isaac Lab、Cosmos 等合成引擎一键启动,大幅降低学习上手成本。

视频演示:cloud.video.taobao.com/vod/INxPBT2...

3、数据增强

PAI - Notebook Gallery >> 基于世界模型的通用导航与运动控制 PAI 支持使用DSW、DLC、EAS等平台工具和产品,快速使用 Isaac Sim 集成的 MobilityGen 功能,并结合 Cosmos 模型的视觉增强能力,生成大规模演示数据来训练X-Mobility这一具有通用性的导航与运动控制策略,并进行端到端可泛化导航。

在遥感数据采集和数据增强阶段,使用 PAI 进行多模态数据管理,对接OSS、DLF等多种存储产品实现文件粒度元数据纳管,实现100万单版本元数据体量;基于Qwen-VL、Elasticsearch、Hologres实现复杂查询,支持亚秒级复杂查询相应;支持版本管理、对比,挖掘加工结果另存,大幅降低数据管理复杂度。

视频演示:cloud.video.taobao.com/vod/s0vyiLJ...

4、模仿学习

PAI - Notebook Gallery >> 基于GR00T-Dreams的机器人训练数据生成 PAI 支持使用DSW、DLC、EAS等平台工具和产品,快速使用强大的世界模型 Cosmos-Predict2 生成具有物理真实感的"抓握-放置"演示视频,并结合GR00T-Dreams的神经逆运动学模型IDM,生成对应的机器人动作序列,构成轨迹-视频的完整数据对。基于这些数据对,对GR00T-N1模型进行模仿学习,使之具备"抓握-放置"动作的能力。最后,以DreamGen Bench作为评测基准,测量模型的物理真实性和指令跟随能力。

视频演示:cloud.video.taobao.com/vod/Ss0FAhK...

5、验证测试

PAI - Notebook Gallery >> 基于Isaac Cortex搭建随机物料箱拣选系统 PAI 支持整合使用 Isaac Cortex 和 Isaac Sim的机器人工具,形成一个统一的协作机器人系统,来实现复杂的交互机器人调度工作,并利用开源算法库 Foundationpose 和 FastSAM 实现快速目标检测及 Pose 估计完成环境感知,基于Isaac Sim的Lula库实现机器人运动规划和控制,从而完成随机物料箱拣选系统搭建。

在模仿学习和验证测试阶段,使用 PAI 进行多模态数据使用,支持数据动态加载、本地缓存加速和 PAI 引擎原生集成,实现同性能下存储成本降低超 90%,数据加载性能数十倍提升,零成本对接现有开发体系。

视频演示:cloud.video.taobao.com/vod/DFf5LKJ...

阿里云人工智能平台 PAI 是面向开发者和企业的一站式AI开发平台,提供从数据集管理、算力调度、模型开发、训练,到模型部署、服务及AI资产与AI安全治理等全链路能力。

智码实验室 PAI- Notebook Gallery ,提供 Physical AI 及其他各个行业和技术方向的 Notebook 案例,简单易用、一键启动,有效提升开发效率。上述 Physical AI 全链路核心步骤的最佳实践,均可在 PAI- Notebook Gallery 中快速使用。PAI- Notebook Gallery 地址: https://gallery.pai-ml.com/ 同时,PAI 提供异构数据管理、异构算力合池、异构框架调度、异构部署兼容等核心功能:

  • 异构数据管理:支持多模态数据的合成仿真,并结合 DataWorks,提供多模态数据管理能力;

  • 异构算力合池:支持通算/智算/仿真算力合池管理,基于QuotaTree,父子Quota、闲时资源,自动实现用户自身自由最优分配,有效提升利用率;

  • 异构框架调度:依托大规模分布式训练能力和极致性能优化,数十万卡异构算力高效管理和调度,提供灵活、稳定、易用、高性能的 AI 数据处理、预训练、后训练环境;

  • 异构部署兼容:支持云端仿真环境部署 Physical AI 模型,并支持导出模型兼容端侧部署方式。

PAI x NVIDIA 的 Physical AI 全链路解决方案,提供简单易用的端到端具身智能开发体验,让创新触手可及。使用 PAI 平台,NVIDIA Cosmos 模型、Isaac 平台与开源 Physical AI 数据集开箱即用,覆盖开发、训练、部署全流程。助力用户快速开启 Physical AI 实践之旅,加速 Physical AI 技术创新与规模化落地。

跳转 PAI-Model Gallery 查看 Physical AI 最佳实践 https://gallery.pai-ml.com/

相关推荐
档案宝档案管理20 分钟前
档案宝:企业合同档案管理的“安全保险箱”与“效率加速器”
大数据·数据库·人工智能·安全·档案·档案管理
IT_Beijing_BIT1 小时前
TensorFlow Keras
人工智能·tensorflow·keras
mit6.8242 小时前
[手机AI开发sdk] 安卓上的Linux环境
人工智能·智能手机
张较瘦_2 小时前
[论文阅读] AI + 教育 | AI赋能“三个课堂”的破局之道——具身认知与技术路径深度解读
论文阅读·人工智能
小雨青年2 小时前
Cursor 项目实战:AI播客策划助手(二)—— 多轮交互打磨播客文案的技术实现与实践
前端·人工智能·状态模式·交互
西西弗Sisyphus3 小时前
线性代数 - 初等矩阵
人工智能·线性代数·机器学习
王哈哈^_^3 小时前
【数据集】【YOLO】【目标检测】共享单车数据集,共享单车识别数据集 3596 张,YOLO自行车识别算法实战训推教程。
人工智能·算法·yolo·目标检测·计算机视觉·视觉检测·毕业设计
仙人掌_lz3 小时前
Multi-Agent的编排模式总结/ Parlant和LangGraph差异对比
人工智能·ai·llm·原型模式·rag·智能体
背包客研究3 小时前
如何在机器学习中使用特征提取对表格数据进行处理
人工智能·机器学习
门框研究员3 小时前
AI基础设施的临界点:算力、资本与政策的三重博弈
人工智能