Linux服务器配置Python+PyTorch+CUDA深度学习环境

参考博主 Linux服务器配置Python+PyTorch+CUDA深度学习环境_linux cuda环境配置-CSDN博客

https://blog.csdn.net/NSJim/article/details/115386936?ops_request_misc=&request_id=&biz_id=102&utm_term=linux%E8%99%9A%E6%8B%9F%E7%8E%AF%E5%A2%83%E6%8C%89pytorch%20cuda&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-3-115386936.142^v100^pc_search_result_base3&spm=1018.2226.3001.4187

sx4 服务器服务器已安装上Anaconda

1. 创建Python虚拟环境(这是针对某服务器特有的命令)

python 复制代码
conda create -n name python=3.10 --offline -y

conda activate name

conda deactivate(回到base 环境)

-------如果创建python 3.10环境,命令到这里结束---------

anaconda 的虚拟环境很好!开辟一个新的虚拟环境,很多环境、版本不兼容的问题都不复存在,尤其对复现别人代码的同学很有用。

如果创建别的python版本(python3.6 3.7 3.8),需要输入以下命令

python 复制代码
cd ~/python-package/py37
python 复制代码
conda install python-3.7.12-hf930737_100_cpython.tar.bz2 certifi-2022.9.14-py37h06a4308_0.tar.bz2 setuptools-65.6.3-py37h06a4308_0.tar.bz2 pip-22.3.1-py37h06a4308_0.tar.bz2

2. 配置PyTorch+CUDA环境

安装显卡驱动

可以通过命令

python 复制代码
nvidia-smi

查看是否安装显卡驱动,若安装,则效果如下图:

安装CUDA驱动

检测CUDA驱动是否安装,在服务器命令行中输入命令: 也就是查看服务器CUDA版本( cuda toolkit 的版本**)**

python 复制代码
nvcc -V

Cuda compilation tools, release11.7(说明cuda已安装)

python 复制代码
nvidia-smi

若没有安装的话,参考这个链接下载(Linux的虚拟环境下安装GPU版本的torch、torchaudio、torchvision详细过程_linux安装torch-CSDN博客

https://blog.csdn.net/Miss_croal/article/details/128087921

此命令可以查看当前显卡驱动允许的最高CUDA版本(cuda driver),效果如下图:

cuda驱动版本(12.1)

pytorch在使用GPU的时候需要用到cuda toolkit,该工具是软件与硬件的桥梁。

cuda有两个意思,一个是运行时cuda(cuda toolkit) ,一个是驱动器cuda(cuda driver)。通常我们的服务器上已经安装过了cuda driver,一般不需要再重新安装,所以本文所安装的cuda指的是安装运行时cuda,即cuda toolkit。还有一个重要的点是安装的cuda toolkit版本不能超过cuda driver的版本

参考自链接:https://blog.csdn.net/qq_46699596/article/details/134552021

3. 安装PyTorch

PyTorch官网:链接

早期版本的安装命令:链接

一定要安装对应CUDA版本的PyTorch,安装命令点击官网的Get started查看。

**安装 PyTorch,稳定好用的版本更重要,推荐使用 CUDA 版本 11.1 到 11.7。**版本查看网站如下:

https://download.pytorch.org/whl/torch_stable.html

服务器使用教程

4. 查看GPU使用状态

通过nvidia命令查看

系统已安装Nvidia显卡驱动后,可使用以下命令查看GPU状态

nvidia-smi

当前已经有运行时cuda了,根据项目环境要求,可以在配置环境中进行cuda版本切换

命令

python 复制代码
cd ~/

显示隐藏文件
ls -a

root用户,cd ~ 相当于 cd /root

ls -a 部分结果:

cuda-11.1 anaconda3 .bashrc cuda-11.7

Anaconda3-2023.03-1-Linux-x86_64.sh cuda-12.1

复制隐藏文件中的 原始 bashrc 文件 成为 bashrc.backup

python 复制代码
cp ~/.bashrc ~/.bashrc.backup

然后后续对bashrc 文件进行cuda版本切换

在激活环境下进行如下操作:

Cuda 11.7 兼容 :11.1 11.3比较稳定11.7 11.8 也行

bashrc 文件中 环境变量

python 复制代码
export PATH=/home/shuxue4/cuda/bin:$PATH
export LD_LIBRARY_PATH=/home/shuxue4/cuda/lib64:$LD_LIBRARY_PATH

找到 .bashrc 文件后,用 nano 编辑它

python 复制代码
nano ~/.bashrc


export PATH=/home/shuxue4/cuda-11.7/bin:$PATH
export LD_LIBRARY_PATH=/home/shuxue4/cuda-11.7/lib64:$LD_LIBRARY_PATH

保存并退出

  • Ctrl + X 退出编辑模式。
  • Y 确认保存更改。
  • Enter 确认文件名并退出。

使修改生效

python 复制代码
source ~/.bashrc

验证一下

python 复制代码
nvcc -V

然后就可以接着安装pytorch了

3.安装pytorch

Torch sssx推荐1.13的 eg: 1.13.1 1.13.2

所以只用官网前一半的内容,后边用-f +后边的网址。

Python 一般用3.8 3.10

python 复制代码
# CUDA 11.7
pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 -f
https://download.pytorch.org/whl/torch_stable.html

@$ pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 -f https://download.pytorch.org/whl /torch_stable.html

下载过程会有如下结果,记得打开实验室服务器啊!!!!!!!!!!!!!!!!!!!!!

Looking in indexes: http://1/root/pypi, http://172./torch/torch Looking in links: https://download.pytorch.org/whl/torch_stable.html WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f9fdffe3070>: Failed to establish a new connection: [Errno 101] 网络不可达')': /whl/torch_stable.html WARNING: Retrying (Retry(total=3, connect=None, read=None, redirect=None, status=None)) after connection broken by 'NewConnectionError( redirect=None, statu 'NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at : Failed to establish a new connection: [Errno 101] 网络不可达')': /whl/torch_stable.html Collecting torch==1.13.1+cu117 Downloading http://172.2/torch/torch/%2Bf/14c/5c9db09df8cf1/torch-1.13.1%2Bcu117-cp310-cp310-linux_x86_64.whl (1801.8 MB) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 1.8/1.8 GB 26.4 MB/s eta 0:00:00 WARNING:

处理"网络不可达"的警告

这些警告可能是由于尝试访问某些外部源失败引起的,但因为你的系统已经在本地缓存或镜像了这些包,所以安装仍然成功了。

相关推荐
封步宇AIGC11 分钟前
量化交易系统开发-实时行情自动化交易-Okex K线数据
人工智能·python·机器学习·数据挖掘
封步宇AIGC14 分钟前
量化交易系统开发-实时行情自动化交易-Okex交易数据
人工智能·python·机器学习·数据挖掘
小爬虫程序猿16 分钟前
如何利用Python解析API返回的数据结构?
数据结构·数据库·python
波点兔18 分钟前
【部署glm4】属性找不到、参数错误问题解决(思路:修改模型包版本)
人工智能·python·机器学习·本地部署大模型·chatglm4
wowocpp1 小时前
查看 linux ubuntu 分区 和 挂载 情况 lsblk
linux·运维·ubuntu
佚明zj1 小时前
全卷积和全连接
人工智能·深度学习
wowocpp1 小时前
查看 磁盘文件系统格式 linux ubuntu blkid ext4
linux·数据库·ubuntu
龙鸣丿2 小时前
Linux基础学习笔记
linux·笔记·学习
一点媛艺3 小时前
Kotlin函数由易到难
开发语言·python·kotlin
耶啵奶膘4 小时前
uniapp-是否删除
linux·前端·uni-app