Linux服务器配置Python+PyTorch+CUDA深度学习环境

参考博主 Linux服务器配置Python+PyTorch+CUDA深度学习环境_linux cuda环境配置-CSDN博客

https://blog.csdn.net/NSJim/article/details/115386936?ops_request_misc=&request_id=&biz_id=102&utm_term=linux%E8%99%9A%E6%8B%9F%E7%8E%AF%E5%A2%83%E6%8C%89pytorch%20cuda&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-3-115386936.142^v100^pc_search_result_base3&spm=1018.2226.3001.4187

sx4 服务器服务器已安装上Anaconda

1. 创建Python虚拟环境(这是针对某服务器特有的命令)

python 复制代码

conda create -n name python=3.10 --offline -y

conda activate name

conda deactivate（回到base 环境）

-------如果创建python 3.10环境，命令到这里结束---------

anaconda 的虚拟环境很好！开辟一个新的虚拟环境，很多环境、版本不兼容的问题都不复存在，尤其对复现别人代码的同学很有用。

如果创建别的python版本(python3.6 3.7 3.8)，需要输入以下命令

python 复制代码

cd ~/python-package/py37

python 复制代码

conda install python-3.7.12-hf930737_100_cpython.tar.bz2 certifi-2022.9.14-py37h06a4308_0.tar.bz2 setuptools-65.6.3-py37h06a4308_0.tar.bz2 pip-22.3.1-py37h06a4308_0.tar.bz2

2. 配置PyTorch+CUDA环境

安装显卡驱动

可以通过命令

python 复制代码

nvidia-smi

查看是否安装显卡驱动，若安装，则效果如下图：

安装CUDA驱动

检测CUDA驱动是否安装，在服务器命令行中输入命令：也就是查看服务器CUDA版本（ cuda toolkit 的版本**）**

python 复制代码

nvcc -V

Cuda compilation tools, release11.7(说明cuda已安装)

python 复制代码

nvidia-smi

若没有安装的话，参考这个链接下载（Linux的虚拟环境下安装GPU版本的torch、torchaudio、torchvision详细过程_linux安装torch-CSDN博客

https://blog.csdn.net/Miss_croal/article/details/128087921）

此命令可以查看当前显卡驱动允许的最高CUDA版本（cuda driver），效果如下图：

cuda驱动版本（12.1）

pytorch在使用GPU的时候需要用到cuda toolkit，该工具是软件与硬件的桥梁。

cuda有两个意思，一个是运行时cuda（cuda toolkit） ，一个是驱动器cuda（cuda driver）。通常我们的服务器上已经安装过了cuda driver，一般不需要再重新安装，所以本文所安装的cuda指的是安装运行时cuda，即cuda toolkit。还有一个重要的点是安装的cuda toolkit版本不能超过cuda driver的版本

参考自链接：https://blog.csdn.net/qq_46699596/article/details/134552021

3. 安装PyTorch

PyTorch官网：链接。

早期版本的安装命令：链接。

一定要安装对应CUDA版本的PyTorch，安装命令点击官网的Get started查看。

**安装 PyTorch，稳定好用的版本更重要，推荐使用 CUDA 版本 11.1 到 11.7。**版本查看网站如下：

https://download.pytorch.org/whl/torch_stable.html

服务器使用教程

4. 查看GPU使用状态

通过nvidia命令查看

系统已安装Nvidia显卡驱动后，可使用以下命令查看GPU状态

nvidia-smi

当前已经有运行时cuda了，根据项目环境要求，可以在配置环境中进行cuda版本切换

命令

python 复制代码

cd ~/

显示隐藏文件
ls -a

root用户，cd ~ 相当于 cd /root

ls -a 部分结果：

cuda-11.1 anaconda3 .bashrc cuda-11.7

Anaconda3-2023.03-1-Linux-x86_64.sh cuda-12.1

复制隐藏文件中的原始 bashrc 文件成为 bashrc.backup

python 复制代码

cp ~/.bashrc ~/.bashrc.backup

然后后续对bashrc 文件进行cuda版本切换

在激活环境下进行如下操作：

Cuda 11.7 兼容 :11.1 11.3比较稳定11.7 11.8 也行

bashrc 文件中环境变量

python 复制代码

export PATH=/home/shuxue4/cuda/bin:$PATH
export LD_LIBRARY_PATH=/home/shuxue4/cuda/lib64:$LD_LIBRARY_PATH

找到 .bashrc 文件后，用 nano 编辑它

python 复制代码

nano ~/.bashrc


export PATH=/home/shuxue4/cuda-11.7/bin:$PATH
export LD_LIBRARY_PATH=/home/shuxue4/cuda-11.7/lib64:$LD_LIBRARY_PATH

保存并退出：

按 Ctrl + X 退出编辑模式。
按 Y 确认保存更改。
按 Enter 确认文件名并退出。

使修改生效：

python 复制代码

source ~/.bashrc

验证一下

python 复制代码

nvcc -V

然后就可以接着安装pytorch了

3.安装pytorch

Torch sssx推荐1.13的 eg： 1.13.1 1.13.2

所以只用官网前一半的内容，后边用-f +后边的网址。

Python 一般用3.8 3.10

python 复制代码

# CUDA 11.7
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 -f
https://download.pytorch.org/whl/torch_stable.html

@$ pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 -f https://download.pytorch.org/whl /torch_stable.html

下载过程会有如下结果，记得打开实验室服务器啊！！！！！！！！！！！！！！！！！！！！！

Looking in indexes: http://1/root/pypi, http://172./torch/torch Looking in links: https://download.pytorch.org/whl/torch_stable.html WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f9fdffe3070>: Failed to establish a new connection: [Errno 101] 网络不可达')': /whl/torch_stable.html WARNING: Retrying (Retry(total=3, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError( redirect=None, statu 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at : Failed to establish a new connection: [Errno 101] 网络不可达')': /whl/torch_stable.html Collecting torch==1.13.1+cu117 Downloading http://172.2/torch/torch/%2Bf/14c/5c9db09df8cf1/torch-1.13.1%2Bcu117-cp310-cp310-linux_x86_64.whl (1801.8 MB) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.8/1.8 GB 26.4 MB/s eta 0:00:00 WARNING：

处理"网络不可达"的警告

这些警告可能是由于尝试访问某些外部源失败引起的，但因为你的系统已经在本地缓存或镜像了这些包，所以安装仍然成功了。