一开始让AI写了一个Ansible脚本来初始化服务器,因为想起了12年前一起工作的小伙伴用Ansible配置管理服务器,于是想着应该没什么问题。
但是脚本实际运行后各种问题,特别是安装nvidia-drives和nvidia-container-toolkit。
以下是最后成功的方案
nvidia-drives
先禁用nouveau驱动
bash
# ---- 禁用 Nouveau 驱动 ----
- name: 禁用 nouveau 开源驱动
copy:
dest: /etc/modprobe.d/blacklist-nouveau.conf
content: |
blacklist nouveau
options nouveau modeset=0
mode: "0644"
- name: 重建 initramfs
command: dracut --force
changed_when: true
去英伟达的官网下载.run安装文件,选择自己适合的版本。
https://download.nvidia.com/XFree86/Linux-x86_64/
然后安装的时候会提示内核开发依赖缺失,安装命令如下
bash
dnf install -y kernel-devel-$(uname -r)
我下载了NVIDIA-Linux-x86_64-575.57.08.run。
修改文件可以执行,然后运行
bash
./NVIDIA-Linux-x86_64-575.57.08.run
安装完成以后,运行nvidia-smi验证是否成功。
nvidia-container-toolkit
这个就要感谢国内的源了。
根据https://mirrors.ustc.edu.cn/help/libnvidia-container.html配置一个源,然后直接运行命令安装即可。
bash
sudo yum install nvidia-container-toolkit