Ubuntu系统安装NVIDIA驱动、CUDA、PyTorch等GPU深度学习环境

学习目标：

在Ubuntu系统上安装CUDA、PyTorch等GPU深度学习环境，主要目标是为深入研究深度学习和深度强化学习提供高效的计算支持。
通过构建GPU环境，计划掌握深度学习的基本概念和算法应用，提高模型训练效率，特别是在复杂项目中的应用能力。希望通过实践，增强对深度学习技术的理解和实际操作能力，为未来的研究奠定基础。
Anaconda是一个开源的Python和R语言分发版，专注于科学计算和数据分析。它提供包管理和环境管理工具（conda），方便用户创建虚拟环境，简化了库的安装和管理。

学习内容：

1 使用Anaconda工具创建单独任务（类任务）虚拟环境。

1.1 官网下载Linux安装文件。下载链接: 点击跳转

1.2 安装Anaconda。进入文件下载位置，文件夹空白处右键打开终端，终端输入以下命令安装，后面一直Yes即可。

javascript 复制代码

# 给文件赋予执行权限并执行安装脚本
sudo chmod +x Anaconda3-2024.10-1-Linux-x86_64.sh
./Anaconda3-2024.10-1-Linux-x86_64.sh

1.3 如果在每次启动终端时，自动激活conda的base环境，需要取消其自动进入，可如下设置。

javascript 复制代码

# 终端输入
conda config --set auto_activate_base false

1.4 如果终端显示"conda: command not found"，可能是因为conda没有正确添加到你的PATH环境变量中。

javascript 复制代码

# 终端输入（法1）
export PATH="/home/jack/anaconda3/bin:$PATH"
source ~/.bashrc

javascript 复制代码

# 终端输入（法2）
sudo gedit ~/.bashrc
#在文件的末尾添加以下行，保存退出
export PATH="/home/jack/anaconda3/bin:$PATH" 
#使更改生效
source ~/.bashrc
#检查PATH是否已更新
echo $PATH
#检查conda版本
conda --version

1.5 在conda中创建自己的虚拟环境。

javascript 复制代码

# 终端输入
#查看当前安装的包和版本
conda list
#创建新环境 环境名称为jack、虚拟环境python版本为3.9，都可自主设计（注意兼容性），等待创建完成。
conda create --name jack python=3.9
#激活虚拟环境
conda activate jack

2 安装NVIDIA驱动

2.1 查看显卡及驱动信息

javascript 复制代码

# 终端输入
#查看你的GPU型号
lspci | grep -i nvidia
# 查看NVIDIA驱动
nvidia-smi
# 查看CUDA版本（如果已安装）
nvcc --version

输出结果如图例所示：

2.2 安装推荐的 NVIDIA 驱动

javascript 复制代码

# 终端输入 
sudo ubuntu-drivers autoinstall
# 安装完成后，重启计算机
sudo reboot
# 查看NVIDIA驱动
nvidia-smi
#使更改生效
source ~/.bashrc

2.3 安装CUDA Toolkit

javascript 复制代码

# 终端输入 
sudo apt install nvidia-cuda-toolkit
# 安装完成后，重新启动终端检查驱动和CUDA是否正常
nvidia-smi
nvcc --version
# 配置环境变量
export PATH=/usr/local/cuda/bin:$PATH
#使更改生效
source ~/.bashrc

2.4 安装Pytorch

javascript 复制代码

# jack环境下终端输入
# cu115是 nvcc --version 中查出的CUDA版本，必须保持一致
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu115

2.5 使用 PyTorch 测试 GPU 是否可用

javascript 复制代码

# jack环境下终端输入
python
# 在代码输入区输入  按一次回车
import torch
# 检查当前系统中是否有可用的 GPU  
print("GPU available:", torch.cuda.is_available())
# 返回可用的 GPU 数量
print("GPU count:", torch.cuda.device_count())
# 返回当前正在使用的 GPU 的索引（从 0 开始） 
print("Current GPU:", torch.cuda.current_device())

验证安装成功时，输出结果如图例所示：

小结：

在本次学习过程中，我们讨论了在 Ubuntu 系统上安装 CUDA、PyTorch 等 GPU 深度学习环境的过程。
通过命令 nvidia-smi 和 nvcc --version，我们可以检查 GPU 驱动和 CUDA 版本。
使用 PyTorch 的 torch.cuda 模块，可以验证 GPU 的可用性、数量以及当前使用的 GPU。
这些步骤对于深度学习和深度强化学习项目至关重要，确保系统具备充分的计算能力以支持相关算法的训练与应用。

欢迎大家评论留言！！！

友情提示：

专栏：深度学习（DL）
专栏：深度强化学习（DRL）