【华为昇腾|CUDA】服务器A6000显卡部署LLM实战记录

安装驱动

  • https://www.nvidia.cn/drivers/lookup/
  • 搜索对应gpu的kylin版本即可
  • 先使用wget 下载rpm包
  • rpm -i 安装
  • 最后使用dnf install nvidia-driver即可
    • 上面安装的是驱动仓库

安装CUDA

安装Ollama

ollama官方提供aarch64 docker,按照https://hub.docker.com/r/ollama/ollama文档操作即可

启动Ollama

同样按文档--gpus=all使用gpu资源启动容器

在启动后建议:

  • docker exec -it ollama bash进入下容器
  • 运行nvidia-smi,重点查看cuda是否正确显示版本号
    • 错误则显示N/A
  • 一般看到cuda版本号ollama即可正常使用gpu推理
相关推荐
m0_738120728 分钟前
Solar月赛(应急响应)——攻击者使用什么漏洞获取了服务器的配置文件?
运维·服务器·安全·web安全·网络安全
咕噜签名分发冰淇淋12 分钟前
应用app的服务器如何增加高并发
运维·服务器
闻道且行之34 分钟前
TTS语音合成|GPT-SoVITS语音合成服务器部署,实现http访问
服务器·gpt·http
鸿蒙开发工程师—阿辉40 分钟前
HarmonyOS 应用拉起系列(一):应用与元服务互通方式
华为·harmonyos·arkts·鸿蒙
海绵波波1072 小时前
解读LISA:通过大型语言模型实现推理分割
人工智能·语言模型·自然语言处理
forestqq2 小时前
zabbix平台无法删除已停用主机的处理案例
运维·服务器·zabbix
大锦终2 小时前
【Linux】环境变量
linux·运维·服务器
萑澈2 小时前
我在 Arch Linux Plasma 6 Wayland 下驯服 Chromium 输入法的完整记录
linux·运维·服务器
favour_you___2 小时前
Linux信号捕捉与穿插中断
linux·运维·服务器
贾全2 小时前
Transformer架构全解析:搭建AI的“神经网络大厦“
人工智能·神经网络·ai·语言模型·自然语言处理·架构·transformer