【华为昇腾|CUDA】服务器A6000显卡部署LLM实战记录

刘阿宾2025-07-09 11:56

安装驱动

https://www.nvidia.cn/drivers/lookup/
搜索对应gpu的kylin版本即可
先使用wget 下载rpm包
rpm -i 安装
最后使用dnf install nvidia-driver即可
- 上面安装的是驱动仓库

安装CUDA

kylin服务器参考配置
同上，先wget，后rpm -i，最后dnf install cuda即可

安装Ollama

ollama官方提供aarch64 docker，按照https://hub.docker.com/r/ollama/ollama文档操作即可

启动Ollama

同样按文档--gpus=all使用gpu资源启动容器

在启动后建议：

先docker exec -it ollama bash进入下容器
运行nvidia-smi，重点查看cuda是否正确显示版本号
- 错误则显示N/A
一般看到cuda版本号ollama即可正常使用gpu推理

上一篇：联通线路物理服务器选择的关键要点

下一篇：从零构建MCP服务器：FastMCP实战指南

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04GitLab 零基础入门指南：从安装到项目管理全流程 05Linux下V2Ray安装配置指南 06NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 07在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）08Labelme从安装到标注：零基础完整指南 092025软件测试面试八股文（含答案+文档）10一文了解国产算子编程语言 TileLang，TileLang 对国产开源生态的影响与启示