腾讯云国际代充-GPU服务器安装驱动教程NVIDIA Tesla

腾讯云国际站GPU 云服务器是基于 GPU 的快速、稳定、弹性的计算服务,主要应用于深度学习训练/推理、图形图像处理以及科学计算等场景。 GPU 云服务器提供和标准腾讯云国际 CVM 云服务器一致的方便快捷的管理方式。

GPU 云服务器通过其强大的快速处理海量数据的计算性能,有效解放用户的计算压力,提升业务处理效率与竞争力。腾讯云国际站提供全面广泛的服务内容。无-需-绑-定PayPal,代-充-值腾讯云国际站、阿里云国际站、AWS亚马逊云、GCP谷歌云,官方授权经销商!靠谱!T-G 飞机 @unirech_dingding下面主要以以 CentOS 操作系统为例,介绍腾讯云国际GPU云服务器如何安装 Tesla Driver。

操作场景

腾讯云国际站GPU 云服务器正常工作需提前安装正确的基础设施软件,对 NVIDIA 系列 GPU 而言,有以下两个层次的软件包需要安装:

  • 驱动 GPU 工作的硬件驱动程序。
  • 上层应用程序所需要的库。

操作步骤
Linux 驱动安装

Linux 驱动安装采用 Shell 脚本安装方式,适用于任何 Linux 发行版,包括 CentOS,Ubuntu 等。

NVIDIA Telsa GPU 的 Linux 驱动在安装过程中需要编译 kernel module,系统需提前安装 gcc 和编译 Linux Kernel Module 所依赖的包,例如 kernel-devel-$(uname -r) 等。

1.执行以下命令,检查当前系统中是否已安装 dkms。

复制代码
rpm -qa | grep -i dkms

返回结果如下图,则表示已安装 dkms。

如未安装 dkms,则执行以下命令进行安装。

复制代码
sudo yum install -y dkms

2.登录 NVIDIA 驱动下载 或访问 http://www.nvidia.com/Download/Find.aspx

3.选择操作系统和安装包,并单击【SEARCH】搜寻驱动,选择要下载的驱动版本。本文以 V100 为例,如下图所示:

注意: 操作系统(Operating System)选择 Linux 64-bit 即表示下载 shell

安装文件。如果选择具体的发行版,则下载的文件是对应的包安装文件。

4.选择特定的版本进入下载页面,单击【DOWNLOAD】。如下图所示:

5.如有填写个人信息的页面可选择直接跳过,当出现以下页面时,右键单击【AGREE&DOWNLOAD】并选择菜单中的【复制链接地址】。如下图所示:

6.参考 使用标准方式登录 Linux 实例(推荐),登录 GPU 实例。您也可以根据实际操作习惯,选择其他不同的登录方式:

  • 使用远程登录软件登录 Linux 实例
  • 使用 SSH 登录 Linux 实例

7.使用 wget 命令, 粘贴 步骤5 中已获取的链接地址,下载安装包。如下图所示:

或者您可在本地系统下载 NVIDIA 安装包,再上传到 GPU 实例的服务器。

8.执行以下命令,对安装包添加执行权限。 例如,对文件名为 NVIDIA-Linux-x86_64-418.126.02.run 添加执行权限。

复制代码
chmod +x NVIDIA-Linux-x86_64-418.126.02.run

9.依次执行以下命令,检查当前系统中是否已安装 gcc 和 kernel-devel 包。

复制代码
rpm -qa | grep kernel-devel

rpm -qa | grep gcc

返回结果如下,则表示已安装 gcc 和 kernel-devel。

如未安装,则请执行以下命令进行安装。

复制代码
sudo yum install -y gcc kernel-devel

注意: 如升级了 kernel 版本,则需要将 kernel-devel 升级至与 kernel 相同的版本。

10.执行以下命令,运行驱动安装程序,并按提示进行后续操作。

复制代码
sudo sh NVIDIA-Linux-x86_64-418.126.02.run

11.安装完成后,执行以下命令进行验证。

复制代码
nvidia-smi

如返回信息类似下图中的 GPU 信息,则说明驱动安装成功。

Windows 驱动安装

  1. 参考 使用 RDP 文件登录 Windows 实例(推荐),登录 GPU 实例。

  2. 访问 NVIDIA 驱动下载 官网。

  3. 选择操作系统和安装包,并选择对应驱动程序。本文以 V100 为例,如下图所示:

  4. 打开下载驱动程序所在的文件夹,双击安装文件开始安装,按照界面上的提示安装驱动程序并根据需要重启实例。

    安装完成后,如需验证 GPU 是否正常工作,请查看设备管理器。

安装失败原因

Linux 系统驱动安装失败表现为 nvidia-smi 无法工作,通常原因如下:

  1. 系统缺乏编译 kernel module 所需要的包,如 gcc,kernel-devel-xxx 等,导致无法编译,最终安装失败。
  2. 系统里面存在多个版本的 kernel,由于 DKMS 的不正确配置,导致驱动编译为非当前版本 kernel 的 kernelmodule,导致 kernel module 安装失败。
  3. 安装驱动后,升级了 kernel 版本导致原来的安装失效。
相关推荐
黑客老李29 分钟前
JavaSec | SpringAOP 链学习分析
java·运维·服务器·开发语言·学习·apache·memcached
BOB-wangbaohai30 分钟前
阿里云ACP云计算备考笔记 (4)——企业应用服务
阿里云·云计算·云监控·云解析·云cdn·sls日志服务
这儿有一堆花1 小时前
安全访问家中 Linux 服务器的远程方案 —— 专为单用户场景设计
linux·服务器·安全
RussellFans2 小时前
Linux 文本三剑客(grep, awk, sed)
linux·运维·服务器
听风吹等浪起2 小时前
CentOS在vmware局域网内搭建DHCP服务器【踩坑记录】
linux·服务器·centos
MrWang.3 小时前
Ubuntu中SSH服务器安装使用
服务器·ubuntu·ssh
我的golang之路果然有问题4 小时前
云服务器部署Gin+gorm 项目 demo
运维·服务器·后端·学习·golang·gin
亚林瓜子5 小时前
AWS API Gateway配置日志
云计算·gateway·aws·log·cloudwatch
happyh h h h p p p p6 小时前
部署DNS从服务器
运维·服务器·网络
jiunian_cn6 小时前
【Linux】Linux权限
linux·服务器·mysql