Linux服务器配置Python+PyTorch+CUDA深度学习环境

参考博主 Linux服务器配置Python+PyTorch+CUDA深度学习环境_linux cuda环境配置-CSDN博客

https://blog.csdn.net/NSJim/article/details/115386936?ops_request_misc=&request_id=&biz_id=102&utm_term=linux%E8%99%9A%E6%8B%9F%E7%8E%AF%E5%A2%83%E6%8C%89pytorch%20cuda&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-3-115386936.142^v100^pc_search_result_base3&spm=1018.2226.3001.4187

sx4 服务器服务器已安装上Anaconda

1. 创建Python虚拟环境(这是针对某服务器特有的命令)

python 复制代码
conda create -n name python=3.10 --offline -y

conda activate name

conda deactivate(回到base 环境)

-------如果创建python 3.10环境,命令到这里结束---------

anaconda 的虚拟环境很好!开辟一个新的虚拟环境,很多环境、版本不兼容的问题都不复存在,尤其对复现别人代码的同学很有用。

如果创建别的python版本(python3.6 3.7 3.8),需要输入以下命令

python 复制代码
cd ~/python-package/py37
python 复制代码
conda install python-3.7.12-hf930737_100_cpython.tar.bz2 certifi-2022.9.14-py37h06a4308_0.tar.bz2 setuptools-65.6.3-py37h06a4308_0.tar.bz2 pip-22.3.1-py37h06a4308_0.tar.bz2

2. 配置PyTorch+CUDA环境

安装显卡驱动

可以通过命令

python 复制代码
nvidia-smi

查看是否安装显卡驱动,若安装,则效果如下图:

安装CUDA驱动

检测CUDA驱动是否安装,在服务器命令行中输入命令: 也就是查看服务器CUDA版本( cuda toolkit 的版本**)**

python 复制代码
nvcc -V

Cuda compilation tools, release11.7(说明cuda已安装)

python 复制代码
nvidia-smi

若没有安装的话,参考这个链接下载(Linux的虚拟环境下安装GPU版本的torch、torchaudio、torchvision详细过程_linux安装torch-CSDN博客

https://blog.csdn.net/Miss_croal/article/details/128087921

此命令可以查看当前显卡驱动允许的最高CUDA版本(cuda driver),效果如下图:

cuda驱动版本(12.1)

pytorch在使用GPU的时候需要用到cuda toolkit,该工具是软件与硬件的桥梁。

cuda有两个意思,一个是运行时cuda(cuda toolkit) ,一个是驱动器cuda(cuda driver)。通常我们的服务器上已经安装过了cuda driver,一般不需要再重新安装,所以本文所安装的cuda指的是安装运行时cuda,即cuda toolkit。还有一个重要的点是安装的cuda toolkit版本不能超过cuda driver的版本

参考自链接:https://blog.csdn.net/qq_46699596/article/details/134552021

3. 安装PyTorch

PyTorch官网:链接

早期版本的安装命令:链接

一定要安装对应CUDA版本的PyTorch,安装命令点击官网的Get started查看。

**安装 PyTorch,稳定好用的版本更重要,推荐使用 CUDA 版本 11.1 到 11.7。**版本查看网站如下:

https://download.pytorch.org/whl/torch_stable.html

服务器使用教程

4. 查看GPU使用状态

通过nvidia命令查看

系统已安装Nvidia显卡驱动后,可使用以下命令查看GPU状态

nvidia-smi

当前已经有运行时cuda了,根据项目环境要求,可以在配置环境中进行cuda版本切换

命令

python 复制代码
cd ~/

显示隐藏文件
ls -a

root用户,cd ~ 相当于 cd /root

ls -a 部分结果:

cuda-11.1 anaconda3 .bashrc cuda-11.7

Anaconda3-2023.03-1-Linux-x86_64.sh cuda-12.1

复制隐藏文件中的 原始 bashrc 文件 成为 bashrc.backup

python 复制代码
cp ~/.bashrc ~/.bashrc.backup

然后后续对bashrc 文件进行cuda版本切换

在激活环境下进行如下操作:

Cuda 11.7 兼容 :11.1 11.3比较稳定11.7 11.8 也行

bashrc 文件中 环境变量

python 复制代码
export PATH=/home/shuxue4/cuda/bin:$PATH
export LD_LIBRARY_PATH=/home/shuxue4/cuda/lib64:$LD_LIBRARY_PATH

找到 .bashrc 文件后,用 nano 编辑它

python 复制代码
nano ~/.bashrc


export PATH=/home/shuxue4/cuda-11.7/bin:$PATH
export LD_LIBRARY_PATH=/home/shuxue4/cuda-11.7/lib64:$LD_LIBRARY_PATH

保存并退出

  • Ctrl + X 退出编辑模式。
  • Y 确认保存更改。
  • Enter 确认文件名并退出。

使修改生效

python 复制代码
source ~/.bashrc

验证一下

python 复制代码
nvcc -V

然后就可以接着安装pytorch了

3.安装pytorch

Torch sssx推荐1.13的 eg: 1.13.1 1.13.2

所以只用官网前一半的内容,后边用-f +后边的网址。

Python 一般用3.8 3.10

python 复制代码
# CUDA 11.7
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 -f
https://download.pytorch.org/whl/torch_stable.html

@$ pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 -f https://download.pytorch.org/whl /torch_stable.html

下载过程会有如下结果,记得打开实验室服务器啊!!!!!!!!!!!!!!!!!!!!!

Looking in indexes: http://1/root/pypi, http://172./torch/torch Looking in links: https://download.pytorch.org/whl/torch_stable.html WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f9fdffe3070>: Failed to establish a new connection: [Errno 101] 网络不可达')': /whl/torch_stable.html WARNING: Retrying (Retry(total=3, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError( redirect=None, statu 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at : Failed to establish a new connection: [Errno 101] 网络不可达')': /whl/torch_stable.html Collecting torch==1.13.1+cu117 Downloading http://172.2/torch/torch/%2Bf/14c/5c9db09df8cf1/torch-1.13.1%2Bcu117-cp310-cp310-linux_x86_64.whl (1801.8 MB) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.8/1.8 GB 26.4 MB/s eta 0:00:00 WARNING:

处理"网络不可达"的警告

这些警告可能是由于尝试访问某些外部源失败引起的,但因为你的系统已经在本地缓存或镜像了这些包,所以安装仍然成功了。

相关推荐
檀越剑指大厂5 分钟前
【Python系列】 Base64 编码:使用`base64`模块
开发语言·python
sp_fyf_202411 分钟前
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-05
人工智能·深度学习·神经网络·算法·机器学习·语言模型·数据挖掘
荼靡60314 分钟前
shell(三)
linux·服务器·数据库
小火炉Q15 分钟前
02 python基础 python解释器安装
人工智能·python·神经网络·机器学习·网络安全·自然语言处理
钰见梵星23 分钟前
深度学习优化算法
人工智能·深度学习·算法
zym大哥大24 分钟前
Linux的权限
linux·服务器
算法给的安全感25 分钟前
siamFC算法复现及使用自己的数据集进行测试
深度学习·siamfc
Liknana28 分钟前
动态渲染页面爬取
python
是Winky啊36 分钟前
【论文阅读】WGSR
论文阅读·深度学习·计算机视觉·超分辨率重建
凤枭香36 分钟前
Python Scikit-learn简介
开发语言·python·机器学习·scikit-learn