开源力量：GitCode+昇腾NPU 部署Mistral-7B-Instruct-v0.2模型的技术探索与经验总结

开源力量：GitCode+昇腾NPU 部署Mistral-7B-Instruct-v0.2模型的技术探索与经验总结

[开源力量：GitCode+昇腾NPU 部署Mistral-7B-Instruct-v0.2模型的技术探索与经验总结](#开源力量：GitCode+昇腾NPU 部署Mistral-7B-Instruct-v0.2模型的技术探索与经验总结)

摘要

一、技术背景

[1.1 昇腾NPU](#1.1 昇腾NPU)

[1.2 GitCode平台](#1.2 GitCode平台)

[1.3 vLLM Ascend](#1.3 vLLM Ascend)

二、环境准备

[2.1 创建GitCode Notebook](#2.1 创建GitCode Notebook)

[2.2 配置Hugging Face镜像](#2.2 配置Hugging Face镜像)

[三、部署方案一：原生部署（transformers + torch_npu）](#三、部署方案一：原生部署（transformers + torch_npu）)

[3.1 安装依赖](#3.1 安装依赖)

[3.2 下载模型](#3.2 下载模型)

[3.3 推理代码](#3.3 推理代码)

[3.4 原生方案性能测试](#3.4 原生方案性能测试)

[四、部署方案二：vLLM Ascend优化](#四、部署方案二：vLLM Ascend优化)

[4.1 安装vLLM Ascend](#4.1 安装vLLM Ascend)

[4.2 启动vLLM推理服务](#4.2 启动vLLM推理服务)

[4.3 vLLM Ascend性能测试](#4.3 vLLM Ascend性能测试)

单请求性能对比

并发性能测试（模拟在线服务）

五、完整部署流程

[5.1 环境准备](#5.1 环境准备)

[5.2 选择部署方案](#5.2 选择部署方案)

[5.3 常见问题解决](#5.3 常见问题解决)

六、总结

[6.1 性能对比总结](#6.1 性能对比总结)

[6.2 实践建议](#6.2 实践建议)

[6.3 相关资源](#6.3 相关资源)

摘要

本文记录了在华为昇腾NPU平台上部署Mistral-7B-Instruct-v0.2大语言模型的完整技术实践，包括原生部署和使用vLLM Ascend优化两种方案。通过GitCode平台的免费昇腾910B NPU云资源，完成了从环境搭建、模型下载到推理性能对比的全流程测试。

实测数据：

原生方案（transformers + torch_npu）：约18 tokens/s
vLLM Ascend方案：约45-60 tokens/s（2-3倍性能提升）

一、技术背景

1.1 昇腾NPU

昇腾是华为自研的AI计算芯片，采用达芬奇架构，提供从训练（910B）到推理（310/710）的全场景覆盖。

核心特点：

全栈自研：硬件（达芬奇架构）→ 计算库（CANN）→ 框架（MindSpore）
自主可控：核心IP 100%自研，通过国家信创认证
性能可靠：已在金融、能源、政务等关键场景规模化落地

1.2 GitCode平台

GitCode提供免费的昇腾NPU云资源，开发者可在线体验。

资源配置：

计算类型：NPU 910B
硬件规格：1 × NPU 910B + 32 vCPU + 64GB 内存
操作系统：EulerOS 2.9
存储：50GB（限时免费）

镜像环境：

复制代码

euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook

关键组件版本：

|-----------|-------------|-----------------|
| 组件 | 版本 | 说明 |
| Python | 3.8 | 基础运行环境 |
| PyTorch | 2.1.0 | 深度学习框架 |
| CANN | 8.0 | 昇腾计算架构（相当于CUDA） |
| torch_npu | 2.1.0.post3 | PyTorch-昇腾适配插件 |

1.3 vLLM Ascend

vLLM Ascend是vLLM社区官方提供的昇腾NPU硬件插件，可实现：

完全兼容vLLM API：无需修改代码即可迁移
显著性能提升：相比原生方案可提升2-5倍吞吐量
丰富模型支持：Transformer、MoE、多模态模型

二、环境准备

2.1 创建GitCode Notebook

登录GitCode，进入「我的Notebook」

点击「激活Notebook」

配置资源：

- Notebook类型：NPU basic（1×NPU 910B + 32vCPU + 64GB）
- 镜像：euler2.9-py38-torch2.1.0-cann8.0-openmind0.6-notebook
- 存储：50GB

启动后进入终端验证环境：

验证NPU可用性

python -c "import torch; import torch_npu; print(f'PyTorch: {torch.version}'); print(f'torch_npu: {torch_npu.version}'); print(f'NPU available: {torch.npu.is_available()}')"

预期输出：

复制代码

PyTorch: 2.1.0
torch_npu: 2.1.0.post3
NPU available: True

2.2 配置Hugging Face镜像

复制代码

export HF_ENDPOINT=https://hf-mirror.com

作用：将Hugging Face请求重定向到国内镜像站，加速模型下载。

三、部署方案一：原生部署（transformers + torch_npu）

3.1 安装依赖

在昇腾 NPU 上运行 Mistral-7B-Instruct-v0.2，需要搭建三层推理环境：

模型层：Hugging Face 托管，通过 transformers 加载
框架层：PyTorch + torch-npu（NPU 适配插件）+ accelerate（多设备调度）
硬件层：昇腾 NPU

运行时：transformers 解析模型结构 → PyTorch 构建计算图 → torch-npu 编译为昇腾指令 → accelerate 优化设备分配与加载策略。

复制代码

pip install transformers accelerate --upgrade

3.2 下载模型

复制代码

huggingface-cli download mistralai/Mistral-7B-Instruct-v0.2 \
  --local-dir ./models/Mistral-7B-Instruct-v0.2 \
  --local-dir-use-symlinks False

下载 16 个文件（权重分片 + 配置 + tokenizer）
Safetensors 分片约 13--14 GB，5 分钟内完成，支持断点续传
稳定性优于 from_pretrained() 在线加载

💡 --local-dir-use-symlinks 参数用于兼容旧脚本，新版已默认禁用符号链接

3.3 推理代码

benchmark_mistral_npu.py对Mistral-7B-Instruct-v0.2进行基准测试

核心步骤：

环境准备：导入 torch_npu 注册 NPU 设备
模型加载：使用 AutoModelForCausalLM 加载本地模型，指定 FP16 精度节省显存（约 14 GB）
设备分配：通过 device_map="npu:0" 自动将模型迁移至 NPU
推理执行：输入经 tokenizer 编码后送入模型，generate() 方法生成 120 tokens，temperature=0.7 平衡多样性与连贯性

import torch
import torch_npu
from transformers import AutoModelForCausalLM, AutoTokenizer

加载模型

model_path = "./models/Mistral-7B-Instruct-v0.2"
model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.float16,
device_map="npu:0"
)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.eval()

推理测试

prompt = "介绍一下人工智能的发展历程"
inputs = tokenizer(prompt, return_tensors="pt").to("npu:0")

with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=120,
do_sample=True,
temperature=0.7
)

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

3.4 原生方案性能测试

本次测试基于华为昇腾 NPU 环境，使用 Mistral-7B-Instruct-v0.2 开源大模型，在 FP16 精度下完成加载与推理，并围绕五类典型任务（中文问答、英文问答、代码生成、逻辑推理、长上下文理解）进行端到端性能评估。测试结果如下：

|--------|------------------|---------------|
| 测试类型 | 平均延迟(120 tokens) | 吞吐量(tokens/s) |
| 中文问答 | 6763 ms | 17.74 |
| 英文问答 | 6582 ms | 18.23 |
| 代码生成 | 6578 ms | 18.24 |
| 逻辑推理 | 6436 ms | 18.64 |
| 长上下文 | 6549 ms | 18.32 |
| 平均 | ~6.58 秒 | ~18.2 |

显存占用：约15GB

四、部署方案二：vLLM Ascend优化

4.1 安装vLLM Ascend

方式一：使用gitee镜像源码安装（推荐国内用户）

复制代码

# 1. 克隆 Gitee 镜像
git clone https://gitee.com/mirrors/vllm-ascend.git
cd vllm-ascend

# 2. 切换到 v0.7.x 版本
git checkout v0.7.3

# 3. 安装构建依赖
pip install setuptools_scm wheel -i https://pypi.tuna.tsinghua.edu.cn/simple

# 4. 禁用自定义算子编译，安装
export COMPILE_CUSTOM_KERNELS=0
pip install --no-build-isolation -e .

# 5. 验证安装
python -c "import vllm; print(f'vLLM version: {vllm.__version__}')"

方式二：使用pip直接安装

复制代码

# 安装指定版本
pip install vllm-ascend==0.11.0

4.2 启动vLLM推理服务

复制代码

# 方式一：命令行启动服务
vllm serve mistralai/Mistral-7B-Instruct-v0.2 \
  --tensor-parallel-size 1 \
  --max-model-len 4096 \
  --dtype float16 \
  --port 8000

# 方式二：Python代码调用
from vllm import LLM, SamplingParams

llm = LLM(
    model="mistralai/Mistral-7B-Instruct-v0.2",
    tensor_parallel_size=1,
    max_model_len=4096,
    dtype="float16"
)

sampling_params = SamplingParams(
    temperature=0.7,
    max_tokens=120
)

outputs = llm.generate(["介绍一下人工智能的发展历程"], sampling_params)
for output in outputs:
    print(output.outputs[0].text)

4.3 vLLM Ascend性能测试

单请求性能对比

|-------------|----------------|---------------|--------|
| 方案 | 延迟(120 tokens) | 吞吐量(tokens/s) | 显存占用 |
| 原生方案 | 6580 ms | 18.2 | ~15GB |
| vLLM Ascend | 2000-2700 ms | 45-60 | ~16GB |
| 性能提升 | 2.4-3.3倍 | 2.5-3.3倍 | +6% |

并发性能测试（模拟在线服务）

|-----|----------|-----------|---------------|
| QPS | 平均延迟(ms) | P99延迟(ms) | 吞吐量(tokens/s) |
| 1 | 104 | 154 | 205 |
| 4 | 116 | 169 | 600 |
| 16 | 129 | 188 | 911 |
| ∞ | 3394 | 3541 | 1055 |

关键优势：

延迟稳定：高并发下延迟增长平缓
吞吐领先：QPS=16时达到911 tokens/s
资源高效：支持动态batching和连续批处理

五、完整部署流程

5.1 环境准备

申请GitCode Notebook资源
配置Hugging Face镜像
验证NPU可用性

5.2 选择部署方案

|-------|-------------|--------------|
| 场景 | 推荐方案 | 理由 |
| 快速验证 | 原生方案 | 无需额外安装，代码简单 |
| 生产服务 | vLLM Ascend | 高吞吐、低延迟、支持并发 |
| 单用户交互 | 原生方案 | 资源占用略低 |
| 多用户服务 | vLLM Ascend | 性能优势明显 |

5.3 常见问题解决

tokenizers版本问题

pip install tokenizers>=0.14.0
显存不足

使用量化

model = AutoModelForCausalLM.from_pretrained(
model_path,
torch_dtype=torch.float16,
device_map="npu:0",
load_in_8bit=True # INT8量化
)
模型下载失败

使用镜像并设置超时

export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download ... --resume-download

六、总结

6.1 性能对比总结

|--------------|-------------|-------------|----------|
| 指标 | 原生方案 | vLLM Ascend | 提升幅度 |
| 单请求吞吐 | 18.2 tok/s | 45-60 tok/s | 2.5-3.3× |
| 并发吞吐（QPS=16） | ~200 tok/s | 911 tok/s | 4.5× |
| 显存占用 | 15 GB | 16 GB | +6% |
| 部署复杂度 | 低 | 中 | - |

6.2 实践建议

开发阶段：使用原生方案快速验证功能
生产部署：采用vLLM Ascend获得最佳性能
成本控制：GitCode免费资源足够完成初步验证
性能调优：根据实际QPS需求选择合适的batch size

6.3 相关资源

昇腾官网：https://www.hiascend.com/
vLLM Ascend：https://github.com/vllm-project/vllm-ascend
GitCode：https://gitcode.com/ascend
昇腾社区：https://www.hiascend.com/community

开源力量：GitCode+昇腾NPU 部署Mistral-7B-Instruct-v0.2模型的技术探索与经验总结