配置全新服务器深度学习一套流程

目录

1.安装anaconda

直接参考视频

总结:

1.下载anaconda安装包,尽量不下载最新的版本

2.bash 对应安装包,一直回车,yes

3.配置环境vim ~/.bashrc,把下面这段复制到其中,然后source ~/.bashrc激活,即配置完成,打开即是对应的anaconda

export PATH="/home/zhaol409100220027/zhaol409100220027/anaconda3/bin:$PATH"
# >>> conda initialize >>>
# !! Contents within this block are managed by 'conda init' !!
__conda_setup="$('/home/zhaol409100220027/zhaol409100220027/anaconda3/bin/conda' 'shell.bash' 'hook' 2> /dev/null)"
if [ $? -eq 0 ]; then
    eval "$__conda_setup"
else
    if [ -f "/home/zhaol409100220027/zhaol409100220027/anaconda3/etc/profile.d/conda.sh" ]; then
        . "/home/zhaol409100220027/zhaol409100220027/anaconda3/etc/profile.d/conda.sh"
    else
        export PATH="/home/zhaol409100220027/zhaol409100220027/anaconda3/bin:$PATH"
    fi
fi
unset __conda_setup
# <<< conda initialize <<<

2.配置cuda

参考视频

总结:

1.下载cuda 安装包

wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda_11.8.0_520.61.05_linux.run

2.sh xx.run accept后调整为如下图

sh cuda_11.8.0_520.61.05_linux.run

选择Options,进入CUDA Toolkit,全部不选择

进入Change Toolkit Install Path,更改地址为自己设置的文件夹

配置lib的位置,在Library install path处

返回install即可,出现如下即安装成功!不用管下面的warning

3.配置环境变量

复制下面这段到~/.bashrc文件中,注意更改为自己的cuda路径即可

# setting environment for cuda-11.8
export CUDA_HOME=/home/zhaol409100220027/zhaol409100220027/cuda-11.8
export PATH=/home/zhaol409100220027/zhaol409100220027//cuda-11.8/bin:$PATH
export LD_LIBRARY_PATH=/home/zhaol409100220027/zhaol409100220027/cuda-11.8/lib64:$LD_LIBRARY_PATH

安装后得到如下图即为完成的

3.配置cudnn

1.下载cudnn

2.tar -xf cudnn-linux-x86_64-9.3.0.75_cuda11-archive.tar.xz

3.做一些基础的操作

cp cudnn-linux-x86_64-8.6.0.163_cuda11-archive/include/cudnn*.h cuda-11.8/include/
cp -P cudnn-linux-x86_64-8.6.0.163_cuda11-archive/lib/libcudnn* cuda-11.8/lib64
chmod a+r cuda-11.8/include/cudnn*.h cuda-11.8/lib64/libcudnn*

到此cudnn即配置成功!

4.配置新的pytorch环境

1.创建新的虚拟环境conda create -n pytorch python=3.7

2.进入pytorch官网找到自己需要的对应的版本安装指令,注意这里所安装的torch的cuda版本要小于上面第二步所安装的cuda版本,比如我的是cuda-11.8,所安装的torch版本的为cu117即11.7版本

pip install torch==1.13.1+cu117 torchvision==0.14.1+cu117 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu117

3.检查下是否配置成功

输入指令pythonimport torch,print(torch.__version__),print(torch.cuda.is_available()),如下图出现True为成功配置!

4.这里记录下torch里的一些基本的torch-geometric等安装,下载torch_scatter,torch-sparse,torch-cluster,torch-spline-conv包,这些包依赖关系非常严重,下错了就是满屏红字。可以从中下载https://pytorch-geometric.com/whl/,找到对应的torch版本,例如从上面我们可以看到我们torch版本是1.13.1+cu117,则进入对应的目录,下载对应的python版本需要的几个文件,如下图,把文件移到服务器,进行pin install +文件名即可安装

5.最终安装pip install torch_geometric

5.安装rdkit包

1.到rdkit官网下载适合自己的版本,一般下载20年或者21年的版本都可以。

2.下载好放置到一个路径中,anaconda切换至这个路径和切换到相应的环境,使用指令conda install --use-local package_name把这里的package name切换为自己刚刚下载的rdkit包的下载路径即可例如:conda install --use-local rdkit-2020.09.1.0-py37h3d1ada6_1.tar.bz2即可。

发现上面这种方法不好用,也会经常出现报错,具体原因不详,换如下方法:

1.进入anaconda安装包地址,找到你要安装的rdkit版本

2.进入以后看到对应指令,输入指令下载即可conda install cctbx202105::rdkit

6.小问题记录

1.遇到安装包时超时问题,pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple/,利用-i指定镜像下载

相关推荐
HPC_fac1305206781617 分钟前
科研深度学习:如何精选GPU以优化服务器性能
服务器·人工智能·深度学习·神经网络·机器学习·数据挖掘·gpu算力
sun0077007 小时前
ubuntu dpkg 删除安装包
运维·服务器·ubuntu
oi777 小时前
使用itextpdf进行pdf模版填充中文文本时部分字不显示问题
java·服务器
学Linux的语莫9 小时前
Ansible使用简介和基础使用
linux·运维·服务器·nginx·云计算·ansible
Onlooker1299 小时前
云服务器部署WebSocket项目
服务器
学Linux的语莫9 小时前
搭建服务器VPN,Linux客户端连接WireGuard,Windows客户端连接WireGuard
linux·运维·服务器
legend_jz9 小时前
【Linux】线程控制
linux·服务器·开发语言·c++·笔记·学习·学习方法
黑牛先生9 小时前
【Linux】进程-PCB
linux·运维·服务器
Karoku0669 小时前
【企业级分布式系统】ELK优化
运维·服务器·数据库·elk·elasticsearch