大模型国产化适配7-华为昇腾LLM落地可选解决方案（MindFormers、ModelLink、MindIE）

随着 ChatGPT 的现象级走红，引领了AI大模型时代的变革，从而导致 AI 算力日益紧缺。与此同时，中美贸易战以及美国对华进行AI芯片相关的制裁导致 AI 算力的国产化适配势在必行。之前也分享过一些国产 AI 芯片和 AI 框架。

另外，我撰写的大模型相关的博客及配套代码 均整理放置在Github：llm-action，有需要的朋友自取。

硬件

目前昇腾的高端芯片主要有：

Atlas 800T (910A)：适合使用 MindFormers 进行大模型训练。
Atlas 800T A2 (910B)：适合使用 MindFormers、ModelLink 进行大模型训练。
Atlas 800I A2 (910B)：适合使用 MindIE 进行大模型推理。
...

模型训练

目前，华为针对昇腾910进行大模型训练提供了两大类解决方法：一类是基于MindSpore框架（MindFormers）。一类基于PyTorch框架（AscendSpeed、ModelLink、ModelZoo-PyTorch、HuggingFace Transformers等）。

方案一：MindFormers（MindSpore）

参考：

MindFormers官方文档：gitee.com/mindspore/m...
MindFormers模型支持列表：mindformers.readthedocs.io/zh-cn/lates...

MindFormers（MindSpore Transformers）套件华为自家提供的一个构建大模型训练、微调、评估、推理、部署的全流程开发套件，提供业内主流的Transformer类预训练模型和SOTA下游任务应用，涵盖丰富的并行特性。期望帮助用户轻松的实现大模型训练和创新研发。

MindSpore Transformers套件基于MindSpore内置的并行技术和组件化设计，具备如下特点：

一行代码实现从单卡到大规模集群训练的无缝切换；
提供灵活易用的个性化并行配置；
能够自动进行拓扑感知，高效地融合数据并行和模型并行策略；
一键启动任意任务的单卡/多卡训练、微调、评估、推理流程；
支持用户进行组件化配置任意模块，如优化器、学习策略、网络组装等；
提供Trainer、pipeline、AutoClass等高阶易用性接口；
提供预置SOTA权重自动下载及加载功能；
支持人工智能计算中心无缝迁移部署；

目前针对大模型的支持如下：

该方案是华为针对自家 MindSpore 框架开发的大模型开发套件，目前相对于PyTorch方案来说，支持的模型会更全面一些。同时，在昇腾前两年的NPU（如：Atlas 800T (910A)）上面也支持的更好一些。

方案二：ModelLink（Pytorch+Megatron）

参考：gitee.com/ascend/Mode...

ModelLink旨在为华为昇腾芯片上的大语言模型提供端到端的解决方案, 包含模型，算法，以及下游任务。

当前 ModelLink 支撑大模型使用的功能如下：

制作预训练数据集/制作指令微调数据集
预训练/全参微调/低参微调
推理(人机对话)
评估基线数据集(Benchmark)
使用加速特性（加速算法+融合算子）
基于昇腾芯片采集Profiling数据

目前支持的模型如下：

| 模型 | 参数 | |--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------|------------ | Aquila | Baichuan | | 13B | -- | Baichuan2 | | 13B | -- | Bloom | | 176B | -- | InternLM | | 65B | -- | LLaMA | | 13B | LLaMA2 | | 13B | Qwen | | 14B | -- | | 72B | -- | Mixtral | ChatGLM3 | 6B | -- 微调 |
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|---|
| 7B | -- |
| 7B | -- |
| |
| 7B | -- |
| |
| 7B1 | -- |
|
| 7B | -- |
|
| 7B | lora |
href="https://link.juejin.cn?target=https%3A%2F%2Fgitee.com%2Fascend%2FModelLink%2Fblob%2Fmaster%2Fexamples%2Fllama%2Ftune_llama_13b_ptd.sh" title="https://gitee.com/ascend/ModelLink/blob/master/examples/llama/tune_llama_13b_ptd.sh" target="_blank">lora |
href="https://link.juejin.cn?target=https%3A%2F%2Fgitee.com%2Fascend%2FModelLink%2Fblob%2Fmaster%2Fexamples%2Fllama%2Ftune_llama_33b_ptd.sh" title="https://gitee.com/ascend/ModelLink/blob/master/examples/llama/tune_llama_33b_ptd.sh" target="_blank">lora |
href="https://link.juejin.cn?target=https%3A%2F%2Fgitee.com%2Fascend%2FModelLink%2Fblob%2Fmaster%2Fexamples%2Fllama%2Ftune_llama_65b_ptd.sh" title="https://gitee.com/ascend/ModelLink/blob/master/examples/llama/tune_llama_65b_ptd.sh" target="_blank">lora |
| 7B | lora |
href="https://link.juejin.cn?target=https%3A%2F%2Fgitee.com%2Fascend%2FModelLink%2Fblob%2Fmaster%2Fexamples%2Fllama2%2Ftune_llama2_13b_ptd.sh" title="https://gitee.com/ascend/ModelLink/blob/master/examples/llama2/tune_llama2_13b_ptd.sh" target="_blank">lora |
href="https://link.juejin.cn?target=https%3A%2F%2Fgitee.com%2Fascend%2FModelLink%2Fblob%2Fmaster%2Fexamples%2Fllama2%2Ftune_llama2_34b_ptd.sh" title="https://gitee.com/ascend/ModelLink/blob/master/examples/llama2/tune_llama2_34b_ptd.sh" target="_blank">lora |
href="https://link.juejin.cn?target=https%3A%2F%2Fgitee.com%2Fascend%2FModelLink%2Fblob%2Fmaster%2Fexamples%2Fllama2%2Ftune_llama2_70b_ptd.sh" title="https://gitee.com/ascend/ModelLink/blob/master/examples/llama2/tune_llama2_70b_ptd.sh" target="_blank">lora | |
| 7B | -- |
|
|
| 8x7B | -- |
|

目前，该方案昇腾NPU针对Pytorch框架进行大模型推荐的方案。该方案依赖Megatron-LM项目进行二次开发。针对昇腾NPU进行过专门的加速，同时，对支持的大模型进行过严格验证。

方案三：HuggingFace Transformers（Pytorch）

参考：

目前，Hugging Face 核心套件 transformers 、 accelerate 、 peft 、 trl 已原生支持 Ascend NPU。并且，DeepSpeed 也已原生支持 NPU。Atlas 800T A2 及之后版本无需 deepspeed_npu 插件，直接安装，直接使用，因此，建议使用新版 DeepSpeed。使用方式与原生一致。

理论上来说，可以将Huggingface Transformers相关的模型无缝迁移到NPU。该方案提供与英伟达GPU一样的能力，但没有针对昇腾NPU进行专门的加速。就看会不会遇到算子瓶颈了。如果没有算子瓶颈理论上性能应该差不多。目前没有看到官方提供针对大模型进行过严格验证的文档，可能会有坑。

模型推理引擎及服务化

方案一：MindSpore Lite + MindSpore Serving

参考：

模型推理引擎：MindSpore Lite

为了更好的性能去部署已经微调训练好的大模型，可以利用 MindSpore 打造的推理引擎 MindSpore Lite，其提供了开箱即用的推理部署方案，帮助用户使能大模型业务。

Lite 推理大致分两步：权重转换导出 MindIR -> Lite 推理。

模型服务化：MindSpore Serving

MindSpore Serving是一个易于使用的推理框架，旨在帮助 MindSpore 开发者在生产环境中高效部署在线推理服务。当用户使用MindSpore完成模型训练后，导出MindSpore模型，即可使用MindSpore Serving创建该模型的推理服务。

MindSpore Serving架构如下所示：

MindSpore Serving分为客户端、服务器两个部分。在客户端中，用户通过gRPC或RESTful接口向服务器下发推理服务命令。服务器包括主（Main）节点和一个或多个工作（Worker）节点，主节点管理所有的工作节点及其部署的模型信息，接受客户端的用户请求，并将请求分发给工作节点。每个工作节点部署了一个可服务对象，即Servable，这里的Servable可以是单个模型，也可以是多个模型的组合，一个Servable可以围绕相同的模型通过多种方法来提供不同的服务。

目前支持模型包括：