深度学习GPU的环境太乱？从头配置环境：理解+实操

深度学习CUDA环境太乱？环境配置：理解+实操

小白关于环境配置的一点理解
0.装环境之前你需要知道有关CUDA的事
- 进一步理解（optional）
- 如何查看你当前的GPU型号？
[1. 从驱动重装GPU环境](#1. 从驱动重装GPU环境)
[2. 装对应的pytorch包](#2. 装对应的pytorch包)
[3. mmsegmention等安装](#3. mmsegmention等安装)

【注：从1开始进入正题】

小白关于环境配置的一点理解

linux下所有的命令行都是工具，类似软件，安装在某个位置，并把位置添加到环境变量里面。通过which XX就能查看到该位置在哪

nvidia-smi是一个管理监控GPU的工具

nvcc是运行时，编译驱动GPU的工具，安装cuda时一定会自带这个，所以检查这个就知道有没有CUDA

两个不一样，后者输出的是runtime API，这个是运行时要调用的所以torch必须和这个配合。前者是驱动支持的最高版本的cuda，并不是实际安装的cuda

下载------（安装的位置）及配置其对应环境变量。

首先要知道在哪里安装:用find [路径] [匹配条件]去寻找。
其次看环境变量里面有没有路径：
- echo $PATH
- 以及，环境变量都在当下shell的脚本里。比如~/.bashrc.通过vim XX就能看到
  - 如何添加环境变量，修改，这里有：Ubuntu 20.04安装CUDA & CUDNN 手把手带你撸_ubuntu20.04 cuda安装-CSDN博客

装环境要注意，因为依赖，有的顺序不能变。

0.装环境之前你需要知道有关CUDA的事

查看官网安装教程，我们首先发现，要区分以下几个：

OS:你使用GPU所用的操作系统

NVIDIA hardware：GPU物理意义上的显卡

NVIDIA CUDA：加速GPU显卡使用的（用c++写的）库

和他的驱动CUDA driver：使用CUDA需要的编译驱动.即nvcc

（下载CUDA包把这两个都包括了）

所以，要为深度学习配置环境，要安装CUDA及其驱动，cuDNN，pytorch（版本要对应才能成功）

进一步理解（optional）

打开官网给出的表格Support Matrix :: NVIDIA cuDNN Documentation，最右边的Maxwell, pascal等属于GPU架构。你可以直接搜索自己的GPU型号+architecture就能找到是什么架构。比如GTX 4090就是Ada架构。这些架构是时间顺序推出的，可以说是随着工艺发展nm越来越小，所以性能越来越好（类似以前的古董机和现在的智能手机，当然是首选现在的）。Ada架构算是最新的。一个系列的产品可能会随着架构的更新不断推出新的。

RTX是一种平台platform，集成了显卡工作可能需要的一些低层技术，比如渲染图形的光流追踪，AI计算的加速功能。（只需要调用对应API即可）

Geforce是一个产品系列的名字。主打面向游戏的，普通消费级显卡。能搜到该系列产品的网站，看到都有什么产品。并列的有Quadro，Tesla。前后两个是专业级显卡产品。还有面向数据中心系列，面向边缘硬件端计算的。

但是产品都有交叉功能。比如Geforce 4090也能跑深度学习，quadro系列专门面向计算，但是价格贵。对有的人来说，可能4090更划算。
常听的Tesla是数据中心产品中的一个系列，面向工作站

从右往左第二列：CUDA compute capability,，所有显卡，不同版本除了性能不同，功能也有区别，所以挑选时

首先找到符合你性能的
然后看你需要的功能或技术该GPU上有没有。比如你AI计算，对数据精度有要求，32还是64bit的计算，对应的GPU版本上有没有。（当然我现在还没到这个程度）

下一列：GPU的驱动，不同cuDNN库需要不同版本驱动。

下一列：我们知道c++编译的时候，有动态链接和静态链接两种（虽然我还不知道这两种有什么应用场景需求）

下一列：CUDA Toolllkit：开发CUDA，更好使用GPU的环境，能让用户自己编程（类似java也有toolkit？开发时用到的必要、辅助工具等）。安装驱动时的一个工具。（比如选择下载文档？重新下载驱动等）

第一列：cuDNN库，同样是开发CUDA时，用到的库（类似python写时各种import）

CUDA11和12系列支持的cnDNN的库版本也不一样。

如何查看你当前的GPU型号？

lspci | grep -i vga命令输出的：

VGA compatible controller指的是计算机显示图形的一种软件/方式。

NVIDIA Corporation Device 2684 (rev a1)，最后的2684通过网站能查出设备型号，每个设备有唯一型号Linux-ubuntu系统查看显卡型号、显卡信息详解、显卡天梯图_ubuntu查看显卡-CSDN博客

发现GPU驱动装的乱七八糟的，网上各种环境变量路径我也没有，决定重装一次。

1. 从驱动重装GPU环境

根据官网教程Installation Guide :: NVIDIA cuDNN Documentation

按照1.1.1下载驱动的run文件，运行

然后会有提示，可能报错说还有X server调用了nvidia-kernel。尝试了网上几种关闭X server的方法：xorg - How to close X Server, to avoid errors while updating nVidia driver? - Unix & Linux Stack Exchange，cuda - How to solve 'ERROR: An NVIDIA kernel module 'nvidia-uvm' appears to already be loaded in your kernel'? - Ask Ubuntu不是很有效。
又根据提示重启。还是不行。
想起还是原来有一驱动，可能是这个还在运行？搜索如何卸载驱动。这篇帖子很管用Ubuntu 卸载 Nvidia 驱动和安装最新驱动_ubuntu卸载显卡驱动并重装-CSDN博客

根据1.1.2安装toolkit，根据官网教程链接走，前面的大概浏览一下在说什么。

主要从2. Pre-install开始。装完了，配合这篇文章配置环境变量【ubuntu环境配置】超详细ubuntu20.04/22.04安装nvidia驱动/CUDA/cudnn_ubuntu20安装nvidia显卡驱动-CSDN博客

1.2根据教程安装cuDNN

1.3跟教程走，你下载什么类型的安装包，就找到对应的教程去做

遇到的坑：sudo apt-get install libcudnn8=8.x.x.x-1+cudaX.Y时，可能会出现找不到包的提示。此时参考这篇文：E: 未找到"libcudnn8"的"8.x.x.x-1+cudaX.Y"版本_e: 未找到"libcudnn8"的"8.9.2.26-1+cuda11.7"版本-CSDN博客。
- 刚刚apt update会根据新加入的cuda 的key，更新对应的包，并显示下载的对应的路径
- 🍅apt-get update到底是什么原理，这一步会做什么呢

1.4跟着教程测试

可能遇到没有"freeImage.h"的报错，是因为没装这个包，这篇文章解决编译mnistCUDNN时出错：fatal error: FreeImage.h: No such file or directory-CSDN博客

⛏可能用到的命令行工具：

Liunx使用apt安装本地deb软件包_apt安装deb包-CSDN博客

测试每个是否安装成功：

驱动nvcc：
- nvcc --version
- nvidia-smi 显示驱动版本和刚才安装的一致

注：

nvidia-smi和nvcc显示的版本可能不一样。看网上的说法后者是实际安装的版本号，前者是可支持的最高驱动版本。
最关键的是11和12区别大，如果是11.1, 11.5什么的应该区别不大（🍅大家有懂的可以解惑一下）

2. 装对应的pytorch包

也跟着官方教程来Start Locally | PyTorch

因为cuda最主要是11和12两个大区别，所以根据你安装的选择就行，不用纠结细分。

注：

如果你使用的是conda环境，一定要注意你当前python环境中，torch使用的是pip下载的还是conda下载的。我按照官网用conda命令下载后，发现还是torch.cuda.is_available()获取不到GPU

我发现我用两种方式都下载过，conda list查看当前环境的包，torch是cpu版本，还有一个pytorch。

实验一下python， import torch显示torch显示获取不到，所以用的是pip下载的。

最后用pip也下载了新的torch才可以

🍅我很好奇conda是如何处理这两种分别下载的torch的？挖个坑。有懂的小伙伴解惑一下

⛏查看当前环境:python3 -m torch.utils.collect_env

3. mmsegmention等安装

根据教程mmsegmentation/docs/en/get_started.md at main · open-mmlab/mmsegmentation (github.com)，主要是mmcv的安装，直接用mim装最新版就完了

插个空，有问题以后再补充。