今年是大模型迅猛发展的一年,从 Generative AI 迈向 Agentic AI,大模型已能胜任日益复杂的逻辑推理与任务规划。技术架构持续演进,从 Dense 模型转向 MoE,DiT 在多模态与生成领域崭露头角,强化学习(RL)也在多个行业加速落地。Agentic AI 带来的长上下文、多轮交互与动态决策,显著提升了算力需求与推理延迟,对 AI Infra 的算力、稳定性和调度能力提出更高要求。
在本次云栖大会人工智能平台分论坛上,阿里云智能集团计算平台事业部人工智能平台 PAI & DataWorks 负责人林伟为大家带来发布年度重磅升级 ,覆盖训练、推理、开发与 Agent 搭建等多个方面,并贴合 MoE 架构、DiT 架构、强化学习和分布式推理等新趋势带来计算范式变革分享。此外,通义实验室、广汽集团、创维等团队也带来相关最佳实践分享。

人工智能平台 PAI 年度发布,面向Agentic AI的一站式开发平台
1. paiMoE:专为大规模 MoE 模型训练而生的引擎
在 MoE 架构大模型预训练场景,PAI 团队全新发布专为大规模 MoE 模型训练而生的引擎 paiMoE 。paiMoE 核心技术含 MoE 高性能训练优化 Tangram 和 长序列训练优化 ChunkFlow ,通过统一调度机制、自适应计算通信掩盖、EP计算负载均衡和计算显存分离式并行等方面深度优化,有效解决工作负载不同、稀疏 MoE 通信占比高等问题,实测达到 Qwen3 训练端到端加速比提效 3 倍。
MoE 高性能训练优化 Tangram
Tangram 支持支持多样化细粒度 MoE 训练任务,一套机制支持不同的计算、通信、显存与负载均衡需求,基于 Multi-Objective Multi-Level Scheduling 的架构设计,满足不同的 Fine-grained MoE 任务的性能与可编程性要求。Tangram 在 QWen3 多个场景下提升 CPT 训练效率达 3.04 倍。

MoE高性能训练优化 Tangram
长序列训练优化 ChunkFlow
ChunkFlow 针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制。变长序列数据重新组织为等长 Chunk 并且结合调度,有效提升训练效率。ChunkFlow 做为阿里云在变长和超长序列数据集上高效训练解决方案,支撑着通义千问 Qwen 全系列模型的长序列续训练和微调任务。Qwen2.5 系列模型性能测试结果表明,ChunkFlow 训练的端到端性能有最高4.53倍的提升 。研究成果被 ICML 2025 收录,《Efficient Long Context Fine-tune with Chunk Flow》(arxiv.org/pdf/2503.02...)。

长序列训练优化 ChunkFlow
2. PAI-DLC 超大规模分布式训练服务全面升级
人工智能平台 PAI 训练服务 PAI-DLC 支持一键提交 Ray、VeRL、ChatLearn 等强化学习任务框架,支持 GRPO、GSPO 等多种训练方式和 Qwen、DeepSeek 等主流模型,依托大规模分布式训练能力和极致性能优化,数十万卡异构算力高效管理和调度,为用户提供灵活、稳定、易用、高性能的 AI 数据处理、预训练、后训练环境。
-
结合专为大规模 MoE 模型训练而生的引擎 paiMoE、专为 DiT 架构模型预训练优化引擎 paiFuser、强化学习引擎 PAI-RL 等加速工具,显著提升训练效率及 MFU;
-
通过AI统一调度引擎对异构算力高效管理和使用,支持排队&抢占策略和混合异构算力,实现多级算力拓扑和智能网络拓扑调度,数十万卡算力集群增长 3.3 倍;
-
通过支持全 RL 学习框架、数据处理框架 DataJuicer,具备自动容错和预热加速功能,PAI-DLC 训练服务实现 15 倍增长,月均训练任务 4000万+。

3. PAI-EAS 性能优化,加速Agent推理服务落地
-
企业级专家并行(EP)解决方案发布
PAI-EAS 重磅推出企业级 EP 解决方案 ,助力千亿参数 MoE 模型以更低的成本、更高的效率服务于线上业务。PAI-EAS 生产级 EP 的部署支持,将 PD 分离、大规模 EP 、计算-通信协同优化、MTP 等技术融为一体,形成多维度联合优化的新范式,实现极致显存优化、超高性能表现和显著成本降低。

PAI 专家并行(EP)服务架构
专业级EP部署模版:通过提供专业级 EP 部署模板和自动压测工具,PAI EP 服务大幅降低复杂分布式部署门槛,实现一键式高效部署与性能调优;
智能资源调度与编排:基于智能资源调度与编排技术,优化 EPLB 负载均衡与专家迁移开销,结合 LLM 智能路由实现 PD 分离下的集群资源均匀分配,整体利用率大幅提升;
企业级稳定性保障: 涵盖全面的监控、算力健康检查、自动故障隔离与自愈容错机制,确保服务高可用;
灵活的生命周期管理: 支持灵活的生命周期管理,实现 Prefill / Decode 独立扩缩容、资源配置动态调整及一体化服务的灰度发布,兼顾性能、稳定性与成本最优。
- 面向 Agentic-AI 的推理引擎
PAI-EAS 通过模型权重服务、LLM 智能路由和大规模 EP 与 PD / AF 分离部署等产品能力,从服务部署扩容、实例请求调度、推理引擎内核等多个维度加速 Agent 推理服务落地,实现更快部署 (冷启动时长降低 89.8%,扩容时长降低 97.6%)、更低时延 ( TTFT 降低 20.3%,TPOT 降低 70.6%)和更高吞吐( TPS 提升 71.0%)。

4.PAI--DSW 支持 Agent、具身智能等场景 AI 开发
PAI-DSW 集成 JupyterLab、PAI-NextIDE、VSCode、Qwen Code 等多种云端应用,支持 Agent 与具身智能场景,开发者可使用 PAI-DSW 一站式完成微调模型、部署管理模型以及快速搭建 WebUI 等任务。同时,PAI-DSW 通过 Notebook Gallery 案例集、NextIDE 轻量编辑、小 PAI 智能辅助和开发机实例高级连接等新功能,为开发者和企业用户提供完整、灵活、智能的全链路 AI 开发体验。

通过 PAI-Notebook Gallery 开发者快速启动具身智能项目的数据合成、模仿学习、强化学习和测试验证。
-
使用 Isaac 仿真系统、Cosmos 系列模型进行数据生成;
-
基于 Mimic-Gen、Mobility-Gen、Dream-Gen 等算法进行数据扩增;
-
对 BR-CNN、Gr00t Nx 模型进行模仿学习训练和评估;
-
使用 Isaac Cortex 系统对模型进行软件在环测试;
-
使用 Isaac Gym&Lab 进行机器人强化学习。
5.更多重磅发布
5.1 安全的、可信赖的AI安全治理体系
随着大模型能力持续进化,安全问题日益受到关注。PAI 从系统层、数据层到应用层构建全方位防护:保障训练与推理环境安全,防止模型与敏感数据泄露,识别并过滤违规内容。全新发布的 AI 安全护栏能力,提供完整的安全治理体系、灵活的策略配置和高效的模型保护机制,全面守护 AI 模型与数据安全,助力企业构建安全、可控、机密的 AI 应用与智能体。
5.2 开箱即用的模型工具链 PAI-Model Gallery
PAI-ModelGallery 集成丰富的预训练模型,提供一站式零代码的模型训练、压缩、评测、部署服务功能,凭借极致易用的低门槛模型工具链,为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。
5.3 PAI-ArtLab 全新发布 AI Design Agent
AI Design Agent 通过自然语言指令,轻松实现高质量的图像生成、视频制作及精细化图片编辑,极大降低了创意实现的门槛。深度融合通义万相和Qwen-Image等顶尖模型,内置联网搜索与 ComfyUI 集成,兼顾创意与专业需求,同时提供企业级安全隔离,为企业级用户提供高效、安全的设计解决方案。

5.4 一站式大模型蒸馏工具库 PAI-Easydistill
PAI-EasyDistill 有效简化大型语言模型的知识蒸馏过程,助力参数量更小但性能卓越的大模型的实际应用。助力企业实现高性能、低成本的大模型应用。在 Deep Search 等 Agentic 场景下,8B 蒸馏模型效果显著超越 72B 教师模型,模型规模减小88.9%。


5.5 NL2SQL 框架 PAI-DataSurfer Agent
PAI-DataSurfer Agent 是面向复杂真实场景的 NL2SQL 框架,采用"总---分---总"的协同架构,专为超大规模、高复杂度的数据库查询任务设计,大幅提升了自然语言到SQL查询转换的准确性和效率。在被誉为"最接近真实企业场景"的 Spider 2.0-Snow 评测中,以 61.24 % 的执行准确率荣获榜单第一。PAI-DataSurfer Agent 技术已深度集成至大数据开发治理平台 DataWorks 的 Copilot, 在 DataWorks 界面的顶部导航栏点击 Copilot 图标即可开始体验。
PAI 助力通义大模型 MaaS 新范式
阿里云百炼携手通义大模型,基于阿里云人工智能平台 PAI 打造 MaaS(模型即服务)新范式,引领AI普惠化进程。阿里云百炼提供覆盖大语言、多模态、代码、数学等全场景的 SOTA 模型 API 服务,基于 PAI 的统一资源管理、快速模型加载和训推一体调度,为用户提供高性能、低延时、高并发的极致体验。


广汽智能辅助驾驶模型开发训练全面上云
广汽集团携手阿里云人工智能平台 PAI 实现智能辅助驾驶模型开发和训练全栈上云。基于 PAI 的节点自愈及 AIMaster 容错训练引擎,实现千卡规模任务稳定训练不中断;基于 PAI 的任务调度策略及闲时任务等资源精细化管理,资源利用率高达90%以上;基于 PAI Turbo-X 的模型训推加速方案,亿级训练样本千兆模型按天迭代。

PAI支撑创维媒资大模型后训练
依托 PAI 平台,创维构建了从数据管理、模型训练到轻量化推理的全链路技术体系,通过高质量数据清洗、增强与自动化标注,显著提升媒资信息提取、意图识别和多路召回精度。通过大模型蒸馏工具 PAI-EasyDistill,支撑创维酷开压缩模型体积,保留模型精度,提升推理速度;通过推理服务 PAI-EAS,支撑创维酷开高效且高性价的模型部署。
