一、准备阶段
1.1 查看NPU信息
香橙派查看npu信息的命令如下,可以看到npu的型号、显存和版本信息等。
bash
npu-smi info
1.2 查看ollama信息
1.2.1 查看ollama是否安装及服务状态
检查 ollama 是否安装及 ollama 服务状态。
bash
# 查看ollama是否安装
which ollama
# 已安装查看ollama服务状态
systemctl list-unit-files | grep ollama
# 查看 Ollama 服务实时状态(运行/停止/失败)
systemctl status ollama
# 如果服务正在启用,停止现在的ollama服务
pkill ollama
1.2.2 卸载ollama
bash
# 停用ollama服务
sudo systemctl stop ollama
# 查看ollama路径
which ollama
# 卸载当前版本ollama,路径为上面查看的路径
sudo rm -rf /usr/local/bin/ollama*
1.3 安装昇腾版本ollama
1.3.1 下载安装昇腾版本的ollama
bash
# 安装昇腾版本的ollama
curl -fsSL https://ollama.com/install.sh | OLLAMA_ASCEND=true sh
1.3.2 配置环境变量
bash
# 永久生效,写进 ~/.bashrc
echo 'export OLLAMA_ASCEND=true' >> ~/.bashrc
echo 'export ASCEND_TOOLKIT_HOME=/usr/local/Ascend/ascend-toolkit/latest' >> ~/.bashrc
echo 'export PATH=$PATH:/usr/local/Ascend/ascend-toolkit/latest/bin' >> ~/.bashrc
source ~/.bashrc
1.3.3 重启ollama服务
bash
# 如果你用的是 systemd
sudo systemctl restart ollama
# 或者直接后台运行
ollama serve &
二、验证是否使用NPU
2.1 查看日志
bash
ollama serve & # 后台启动
# 然后看日志,应该出现类似:
# time=... level=INFO source=runner.go msg="detected ascend device" device=0
# time=... level=INFO source=types.go msg="inference compute" id=0 library=ascend ...
2.2 运行模型尝试
bash
ollama pull llama3.2:3b
ollama run llama3.2:3b
# 输入:你好
# 正常输出速度应该在 30~50 token/s!