linux支持vGPU方案

1,查询gpu型号:lspci | grep "NVIDIA\|VGA"

PCI Devices

2,下载驱动

官方驱动 | NVIDIA

3,安装

复制代码
sudo sh NVIDIA-Linux-x86_64-440.118.02.run -no-x-check -no-nouveau-check -no-opengl-files

参数说明:

-no-x-check #安装驱动时关闭X服务

-no-nouveau-check #安装驱动时禁用nouveau

-no-opengl-files #只安装驱动文件,不安装OpenGL文件

4,查询GPU信息:nvidia-smi

5,nvidia-docker2安装

复制代码
5.1 centos 在线安装
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
   && curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.repo | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
yum install -y nvidia-docker2

5.2 ubuntu 在线安装`
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L `https://nvidia.github.io/nvidia-docker/gpgkey` | sudo apt-key add -
curl -s -L `https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list` | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update && sudo apt-get install -y nvidia-docker2`

5.3 离线安装
安装包位置:base/nvidia-docker2.tar.gz

5.3 配置/etc/docker/daemon.json【注意IP配置】

{

"runtimes": {

"nvidia": {

"path": "nvidia-container-runtime",

"runtimeArgs": []

}

},

"default-runtime": "nvidia",

"insecure-registries": ["IP:5000"],

"registry-mirrors": ["USTC Open Source Software Mirror"]

}

5.4 重启docker:systemctl restart docker

6,vgpu插件安装【单张GPU跳过此步骤】

复制代码
6.1 helm repo add vgpu-charts https://4paradigm.github.io/k8s-vgpu-scheduler

6.2 helm install vgpu vgpu-charts/vgpu --set scheduler.kubeScheduler.imageTag=v1.19.9 -n kube-system 

6.3 查看插件

kubectl get pods -n kube-system

7,其他相关配置

7.1 节点添加lable

问题处理:nvidia部分模块已经加载内核中的问题

ERROR: An NVIDIA kernel module 'nvidia-uvm' appears to already be loaded in your kernel_an nvidia kernel module 'nvidia-uvm' appears to al-CSDN博客

相关推荐
一个人旅程~7 小时前
Dell n4020双系统分区步骤和linux优化操作
linux·windows·电脑
池央7 小时前
CANN 诊断工具链深度解析:oam-tools 的自动化故障信息收集、软硬件状态快照与 AI Core 错误溯源机制
运维·人工智能·自动化
忆~遂愿7 小时前
CANN metadef 深度解析:动态形状元数据管理、图编译器接口规范与序列化执行机制
大数据·linux
予枫的编程笔记7 小时前
【Linux入门篇】Linux文件操作不用记满屏命令,掌握touch/cp/mv核心用法就够了
linux·tar·linux命令·tail·cat·linux文件管理·linux新手教程
learning-striving8 小时前
kali连不上网解决方法
linux·开发语言·网络·php·kali
云边有个稻草人8 小时前
打工人摸鱼新姿势!轻量斗地主服务器,内网穿透让同事远程联机不翻车
运维·服务器·cpolar
阿钱真强道8 小时前
12 JetLinks MQTT直连设备事件上报实战(继电器场景)
linux·服务器·网络·数据库·网络协议
乾元8 小时前
终端安全(EDR):用深度学习识别未知勒索软件
运维·人工智能·网络协议·安全·网络安全·自动化·安全架构
logocode_li8 小时前
OCI/CRI 双标准下:从 dockerd 到 containerd 的 K8s 运行时迭代史
docker·云原生·容器·k8s
wbs_scy8 小时前
Linux 进阶指令实操指南:文件查看、时间管理、搜索压缩全场景覆盖(附高频案例)
linux·运维·服务器