Day0 迁移、一键部署,华为开源的昇思 MindSpore 成为大模型开发的 “万能钥匙”

没有一个大模型可以一统天下。

这,或许已经成为了 AI 大模型时代行业里的一个共识。

在如此背景之下,面对众多且日新月异的主流大模型和 AI 技术,如何能在一个框架、生态下去体验,却成了开发者们 "老大难" 的问题。

难道就没有一个又快又好又方便的解决办法吗?

有的------

华为开源的昇思 MindSpore,了解一下。

在这里,主流 SOTA 大模型的 "搬家" 是这样的------训练 Day0 迁移

只需改动极少极少的代码就 OK,并且精度和性能都在线。

推理一键部署的:

训练转推理全流程自动化,20 多个主流大模型开箱即用,百亿参数模型加载只需不到 30 秒。

**

**

**△**MindSpore 生态快速迁移解决方案的技术架构

那么昇思 MindSpore 是如何做到,我们继续往下看。

改 4 行代码,"搬家"DeepSeek-V3

为了让迁移大模型这件事变得无感知,昇思 MindSpore"翻译神器"------MSAdapter

简单来说,这个工具可以把其他框架的代码转换成 MindSpore 能看懂的语言,从而实现 "零损耗" 迁移。

比如 PyTorch 写的训练脚本,直接在 MindSpore 里运行,动态图体验和原来一样顺手,95% 以上的接口都能自动转换,迁移损耗几乎为零。

在此背后还有其他的 "独家秘笈",加速训练调试调优,具体技术如下:

  • 动态图多级流水:把算子(模型的基本计算单元)的处理拆成 4 个阶段(如 Python 转换、形状推导等),用多核并行处理,速度提升 3-4 倍。

  • JIT 编译:把常用代码 "打包" 成高效执行的模块,像把重复工作做成模板,用的时候直接拿出来用,兼顾灵活编程和高性能。

  • 自动策略寻优:大模型训练需要选最佳并行策略(比如数据并行、张量并行等),传统靠专家经验,现在 MindSpore 能自动搜索最优方案,比如在 DeepSeek-V3 训练中,性能提升了 9.5%。

  • 执行序比对:大模型训练可能因算子执行顺序不同导致精度问题,MindSpore 能自动比对执行顺序,快速找到差异,避免人工排查几十万算子的麻烦。

**

**

**△**MindSpore 训练 Day0 迁移方案

以 DeepSeek-V3 为例,代码改动量如下:

  • Shell 脚本:修改分布式任务启动相关参数,共涉及 4 行代码调整。

  • Python 脚本:变更量占比 < 1%,已通过代码补丁工具自动完成修改。

不仅精度 上可以实现 Day0 对齐 ,而且在保持并行策略一致的情况下叠加 MindSpore 自研增量特性,性能还能提升 5%

HuggingFace 模型们,推理一键部署

在推理部署这块儿,昇思则是用 vLLM-MindSpore 插件能让 HuggingFace 模型在半小时内完成部署并上线。

**

**

**△**vLLM x MindSpore 框架图

要是碰到千亿参数的大模型,MindSpore 用三层部署模式重新打造了推理流程:

  • 直接用 HuggingFace 的权重:能直接加载 HuggingFace 的模型权重,不用转换格式;通过 vLLM - MindSpore 插件,短短几分钟就能把模型变成可提供服务的状态。

  • 模型拿来就能用:支持很多业内常用的模型,拿来就能直接用,像 DeepSeek、Pangu、Qwen 这些,已经有 20 多个模型上线了。

  • 减少启动时的延迟:权重加载花费的时间减少了 80%(百亿参数的模型加载时间不到 30 秒);图编译的延迟也压缩到了毫秒级别。

从实测效果来看,以 Pangu Pro MoE 72B 为例,使用 vLLM 和 MindSpore 在 Atlas 800I A2 上部署推理服务,当前在时延小于 100ms 的情况下单卡增量吞吐可达每秒 1020tokens,在 Atlas 300I Pro 上可达每秒 130tokens。

以上便是关于昇思 MindSpore"训练 Day0 迁移、推理一键部署" 的大致内容了,了解更多详情可戳

技术报告地址:

gitcode.com/ascend-trib...

欢迎在评论区留下你的想法!

相关推荐
卡奥斯开源社区官方4 分钟前
深度拆解:Clawdbot“集体永生”技术内核,是AI协同突破还是营销噱头?
人工智能
小W与影刀RPA7 分钟前
【影刀 RPA】 :文档敏感词批量替换,省时省力又高效
人工智能·python·低代码·自动化·rpa·影刀rpa
小咖自动剪辑20 分钟前
12306余票监控辅助工具详解:自动查询/多方案预约/到点提交
人工智能
得赢科技24 分钟前
智能菜谱研发公司推荐 适配中小型餐饮
大数据·运维·人工智能
victory043140 分钟前
Gradio实现中英文切换,不影响页面状态,不得刷新页面情况下
人工智能
不爱吃糖的程序媛1 小时前
Cordova/Capacitor 在鸿蒙生态中的实践与展望
华为·harmonyos
微光闪现1 小时前
践行“科技向善”,微乐播捐赠108,888元助力唇腭裂儿童绽放笑容
人工智能
闵帆1 小时前
反演学习器面临的鸿沟
人工智能·学习·机器学习
feasibility.1 小时前
多模态模型Qwen3-VL在Llama-Factory中断LoRA微调训练+测试+导出+部署全流程--以具身智能数据集open-eqa为例
人工智能·python·大模型·nlp·llama·多模态·具身智能
CDA数据分析师干货分享1 小时前
【干货】CDA一级知识点拆解1:《CDA一级商业数据分析》第1章 数据分析思维
数据库·人工智能·数据分析·cda证书·cda数据分析师