参考博主 Linux服务器配置Python+PyTorch+CUDA深度学习环境_linux cuda环境配置-CSDN博客
sx4 服务器服务器已安装上Anaconda
1. 创建Python虚拟环境(这是针对某服务器特有的命令)
python
conda create -n name python=3.10 --offline -y
conda activate name
conda deactivate(回到base 环境)
-------如果创建python 3.10环境,命令到这里结束---------
anaconda 的虚拟环境很好!开辟一个新的虚拟环境,很多环境、版本不兼容的问题都不复存在,尤其对复现别人代码的同学很有用。
如果创建别的python版本(python3.6 3.7 3.8),需要输入以下命令
python
cd ~/python-package/py37
python
conda install python-3.7.12-hf930737_100_cpython.tar.bz2 certifi-2022.9.14-py37h06a4308_0.tar.bz2 setuptools-65.6.3-py37h06a4308_0.tar.bz2 pip-22.3.1-py37h06a4308_0.tar.bz2
2. 配置PyTorch+CUDA环境
安装显卡驱动
可以通过命令
python
nvidia-smi
查看是否安装显卡驱动,若安装,则效果如下图:
安装CUDA驱动
检测CUDA驱动是否安装,在服务器命令行中输入命令: 也就是查看服务器CUDA版本( cuda toolkit 的版本**)**
python
nvcc -V
Cuda compilation tools, release11.7(说明cuda已安装)
python
nvidia-smi
若没有安装的话,参考这个链接下载(Linux的虚拟环境下安装GPU版本的torch、torchaudio、torchvision详细过程_linux安装torch-CSDN博客
https://blog.csdn.net/Miss_croal/article/details/128087921)
此命令可以查看当前显卡驱动允许的最高CUDA版本(cuda driver),效果如下图:
cuda驱动版本(12.1)
pytorch在使用GPU的时候需要用到cuda toolkit,该工具是软件与硬件的桥梁。
cuda有两个意思,一个是运行时cuda(cuda toolkit) ,一个是驱动器cuda(cuda driver)。通常我们的服务器上已经安装过了cuda driver,一般不需要再重新安装,所以本文所安装的cuda指的是安装运行时cuda,即cuda toolkit。还有一个重要的点是安装的cuda toolkit版本不能超过cuda driver的版本
参考自链接:https://blog.csdn.net/qq_46699596/article/details/134552021
3. 安装PyTorch
PyTorch官网:链接 。
早期版本的安装命令:链接 。
一定要安装对应CUDA版本的PyTorch,安装命令点击官网的Get started
查看。
**安装 PyTorch,稳定好用的版本更重要,推荐使用 CUDA 版本 11.1 到 11.7。**版本查看网站如下:
https://download.pytorch.org/whl/torch_stable.html
服务器使用教程
4. 查看GPU使用状态
通过nvidia命令查看
系统已安装Nvidia显卡驱动后,可使用以下命令查看GPU状态
nvidia-smi
当前已经有运行时cuda了,根据项目环境要求,可以在配置环境中进行cuda版本切换
命令
python
cd ~/
显示隐藏文件
ls -a
root用户,cd ~ 相当于 cd /root
ls -a 部分结果:
cuda-11.1 anaconda3 .bashrc cuda-11.7
Anaconda3-2023.03-1-Linux-x86_64.sh cuda-12.1
复制隐藏文件中的 原始 bashrc
文件 成为 bashrc.backup
python
cp ~/.bashrc ~/.bashrc.backup
然后后续对bashrc
文件进行cuda版本切换
在激活环境下进行如下操作:
Cuda 11.7 兼容 :11.1 11.3比较稳定11.7 11.8 也行
bashrc
文件中 环境变量
python
export PATH=/home/shuxue4/cuda/bin:$PATH
export LD_LIBRARY_PATH=/home/shuxue4/cuda/lib64:$LD_LIBRARY_PATH
找到 .bashrc
文件后,用 nano
编辑它
python
nano ~/.bashrc
export PATH=/home/shuxue4/cuda-11.7/bin:$PATH
export LD_LIBRARY_PATH=/home/shuxue4/cuda-11.7/lib64:$LD_LIBRARY_PATH
保存并退出:
- 按
Ctrl + X
退出编辑模式。 - 按
Y
确认保存更改。 - 按
Enter
确认文件名并退出。
使修改生效:
python
source ~/.bashrc
验证一下
python
nvcc -V
然后就可以接着安装pytorch了
3.安装pytorch
Torch sssx推荐1.13的 eg: 1.13.1 1.13.2
所以只用官网前一半的内容,后边用-f +后边的网址。
Python 一般用3.8 3.10
python
# CUDA 11.7
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 -f
https://download.pytorch.org/whl/torch_stable.html
@$ pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 -f https://download.pytorch.org/whl /torch_stable.html
下载过程会有如下结果,记得打开实验室服务器啊!!!!!!!!!!!!!!!!!!!!!
Looking in indexes: http://1/root/pypi, http://172./torch/torch Looking in links: https://download.pytorch.org/whl/torch_stable.html WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f9fdffe3070>: Failed to establish a new connection: [Errno 101] 网络不可达')': /whl/torch_stable.html WARNING: Retrying (Retry(total=3, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError( redirect=None, statu 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at : Failed to establish a new connection: [Errno 101] 网络不可达')': /whl/torch_stable.html Collecting torch==1.13.1+cu117 Downloading http://172.2/torch/torch/%2Bf/14c/5c9db09df8cf1/torch-1.13.1%2Bcu117-cp310-cp310-linux_x86_64.whl (1801.8 MB) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.8/1.8 GB 26.4 MB/s eta 0:00:00 WARNING:
处理"网络不可达"的警告
这些警告可能是由于尝试访问某些外部源失败引起的,但因为你的系统已经在本地缓存或镜像了这些包,所以安装仍然成功了。