基于昇腾MindSpeed训练加速库玩转智谱GLM-4-0414模型

智谱GLM-4-0414模型提供32B和9B两种参数规模,涵盖基础、推理和沉思等多种模型类型,均基于 MIT 许可协议开放。其中,推理模型 GLM-Z1-32B-0414 性能卓越,与 DeepSeek-R1 等领先模型相当,实测推理速度达每秒200个Tokens。此前,魔乐社区已推出支持昇思MindSpore和昇腾MindIE的版本。如今,昇腾MindSpeed训练加速库开箱即用的版本也已上线,共包含6个模型,欢迎开发者们下载体验!

🔗魔乐社区模型下载链接:

https://modelers.cn/models/Models_Ecosystem/GLM-Z1-Rumination-32B-0414

https://modelers.cn/models/Models_Ecosystem/GLM-Z1-9B-0414

https://modelers.cn/models/Models_Ecosystem/GLM-Z1-32B-0414

https://modelers.cn/models/Models_Ecosystem/GLM-4-9B-0414

https://modelers.cn/models/Models_Ecosystem/GLM-4-32B-Base-0414

https://modelers.cn/models/Models_Ecosystem/GLM-4-32B-0414

不多说,直接进入实践环节。接下来,我们将基于昇腾MindSpeed训练加速库部署 GLM-Z1-9B-0414 模型,并进行训练和推理操作。

NO.1 环境配置

1.1 硬件要求

GLM-Z1-9B-0414的参考硬件配置如下, 本文将以A2 单机8卡训练和推理为例进行介绍:

|--------|--------|-----------------|
| 类型 | 硬件 | 配置 |
| 全参训练 | NPU | 8 x Ascend NPUs |

1.2 MindSpeed-LLM仓库部署

MindSpeed-LLM的主要依赖配套如下表,安装步骤参考安装指导:

https://gitee.com/ascend/MindSpeed-LLM/blob/master/docs/features/install_guide.md

|----------------------------------------|---------|
| 依赖软件 | 版本 |
| CANN Toolkit(开发套件) | 商发版本 |
| CANN Kernel(算子包) | 商发版本 |
| CANN NNAL(Ascend Transformer Boost加速库) | 商发版本 |
| Python | >=3.10 |
| PyTorch | 2.5.1 |
| torch_npu插件 | 2.5.1 |
| apex | 商发版本 |

仓库拉取

复制代码
git clone https://gitee.com/ascend/MindSpeed-LLM.gitgit clone https://github.com/NVIDIA/Megatron-LM.gitcd Megatron-LMgit checkout core_r0.8.0cp -r megatron ../MindSpeed-LLM/cd ..cd MindSpeed-LLMmkdir logsmkdir datasetmkdir ckpt

环境搭建​​​​​​​

复制代码
# python3.10conda create -n test python=3.10conda activate test # 安装 torch 和 torch_npu,注意要选择对应python版本、x86或arm的torch、torch_npu及apex包pip install torch-2.5.1-cp310-cp310m-manylinux2014_aarch64.whlpip install torch_npu-2.5.1*-cp310-cp310m-linux_aarch64.whl # apex for Ascend 参考 https://gitee.com/ascend/apex# 建议从原仓编译安装 # 安装加速库git clone https://gitee.com/ascend/MindSpeed.gitcd MindSpeed# checkout commit from MindSpeed core_r0.8.0git checkout 2c085cc9pip install -r requirements.txtpip3 install -e .cd ../MindSpeed-LLM  # 安装其余依赖库pip install -r requirements.txt

NO.2 权重/数据准备

2.1 权重转换

权重下载

从魔乐社区或者HuggingFace下载权重和配置文件。

魔乐下载链接(享国内加速下载):https://modelers.cn/models/zhipuai/GLM-Z1-9B-0414

权重转换

MindSpeed-LLM提供脚本将权重转换为mcore权重,用于训练、推理、评估等任务:

https://gitee.com/lliilil/MindSpeed-LLM/blob/master/tests/0day/glm-z1-9b-0414/ckpt_convert_glm4_z1_9b_0414_hf2mcore.sh

使用方法如下,请根据实际需要的TP/PP等切分策略和权重路径修改权重转换脚本。​​​​​​​

复制代码
cd MindSpeed-LLMbash tests/0day/glm-z1-9b-0414/ckpt_convert_glm4_z1_9b_0414_hf2mcore.sh

2.2 数据预处理

MindSpeed-LLM提供脚本进行数据集处理:

https://gitee.com/lliilil/MindSpeed-LLM/blob/master/tests/0day/glm-z1-9b-0414/data_convert_glm4_z1_9b_0414_pretrain.sh

使用方法如下,请根据实际需要修改以下参数​​​​​​​

复制代码
cd MindSpeed-LLMbash tests/0day/glm-z1-9b-0414/data_convert_glm4_z1_9b_0414_pretrain.sh

|--------------------------|-----------------|
| 参数名 | 含义 |
| --input | 数据集路径 |
| --tokenizer-name-or-path | 模型tokenizer目录 |
| --output-prefix | 数据集处理完的输出路径及前缀名 |

NO.3 训练​​​​​​​

复制代码
cd MindSpeed-LLMbash tests/0day/glm-z1-9b-0414/pretrain_glm4_z1_9b_0414_8k_ptd.sh

用户需要根据实际情况修改脚本中以下变量

|----------------|-----------------------------------|
| 变量名 | 含义 |
| MASTER_ADDR | 多机情况下主节点IP |
| NODE_RANK | 多机下,各机对应节点序号0-8 |
| CKPT_SAVE_DIR | 训练中权重保存路径 |
| DATA_PATH | 数据预处理后的数据路径 |
| TOKENIZER_PATH | tokenizer目录 |
| CKPT_LOAD_DIR | 权重转换保存的权重路径,为初始加载的权重,如无初始权重则随机初始化 |

NO.4 推理​​​​​​​

复制代码
cd MindSpeed-LLMbash tests/0day/glm-z1-9b-0414/generate_glm4_z1_9b_0414_ptd.sh

用户需要根据实际情况修改脚本中以下变量

|----------------|-----------------|
| 变量名 | 含义 |
| MASTER_ADDR | 多机情况下主节点IP |
| NODE_RANK | 多机下,各机对应节点序号0-8 |
| CHECKPOINT | 训练保存的权重路径 |
| TOKENIZER_PATH | tokenizer目录 |

NO.5 评估​​​​​​​

复制代码
cd MindSpeed-LLMbash tests/0day/glm-z1-9b-0414/evaluate_glm4_z1_9b_0414_ptd.sh

用户需要根据实际情况修改脚本中以下变量

|----------------|-----------------------------------|
| 变量名 | 含义 |
| MASTER_ADDR | 多机情况下主节点IP |
| NODE_RANK | 多机下,各机对应节点序号0-8 |
| CKPT_SAVE_DIR | 训练中权重保存路径 |
| DATA_PATH | 数据预处理后的数据路径 |
| TOKENIZER_PATH | tokenizer目录 |
| CKPT_LOAD_DIR | 权重转换保存的权重路径,为初始加载的权重,如无初始权重则随机初始化 |

欢迎体验

欢迎大家下载体验GLM-4-0414,也欢迎广大开发者在模型评论区留言交流!

相关推荐
jndingxin1 小时前
OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值
人工智能·opencv·计算机视觉
天水幼麟1 小时前
动手学深度学习-学习笔记【二】(基础知识)
笔记·深度学习·学习
Sweet锦1 小时前
零基础保姆级本地化部署文心大模型4.5开源系列
人工智能·语言模型·文心一言
hie988942 小时前
MATLAB锂离子电池伪二维(P2D)模型实现
人工智能·算法·matlab
晨同学03272 小时前
opencv的颜色通道问题 & rgb & bgr
人工智能·opencv·计算机视觉
蓝婷儿2 小时前
Python 机器学习核心入门与实战进阶 Day 3 - 决策树 & 随机森林模型实战
人工智能·python·机器学习
大千AI助手2 小时前
PageRank:互联网的马尔可夫链平衡态
人工智能·机器学习·贝叶斯·mc·pagerank·条件概率·马尔科夫链
小和尚同志3 小时前
Cline | Cline + Grok3 免费 AI 编程新体验
人工智能·aigc
我就是全世界3 小时前
TensorRT-LLM:大模型推理加速的核心技术与实践优势
人工智能·机器学习·性能优化·大模型·tensorrt-llm
.30-06Springfield3 小时前
决策树(Decision tree)算法详解(ID3、C4.5、CART)
人工智能·python·算法·决策树·机器学习