大模型学习 - 内网环境搭建

大模型学习 - 内网环境搭建

环境:

  • 内网,以下安装均为离线安装
  • 系统:Linux cdh12 3.10.0-1160.e17.x86_64
  • 内存(377G)、GPU(P40-25G)*8)

安装Anaconda

参考:

在回车接收许可时,可得按慢点,不然还得重新开始:

安装CUDA Toolkit

参考:https://blog.csdn.net/weixin_44864260/article/details/127770525

我拿到机器的时候已经安装好:

离线安装PyTorch

参考:https://blog.csdn.net/weixin_44864260/article/details/127770525

我这里选择的是:

没有创建虚拟环境,直接在base中执行安装,但报错了,是依赖包没有安装:

开始逐个安装依赖,阿里源地址(https://mirrors.aliyun.com/pypi/simple/),Pypi源(https://mirrors.aliyun.com/pypi/simple/):

  • nvidia-cunn-cu11
    • nvidia-cublas-cu11
  • nvidia-cuda-nvrtc-cu11
  • nvidia-cuda-runtime-cu11

最好安装torch 2.0以上版本,但通过这种方式一直安装不上!!!

  • 安装2.0.0以上

参考:零基础之Centos7下使用Conda安装Pytorch环境

我这里的环境是:

所以需要下载,下载地址:清华源

  • pytorch
  • torchvision
  • torchaudio
  • pytorch-cuda=11.7

然后逐个安装即可:

检测一下:

linux免密登陆

主机:Windows,目标主机:Linux

参考:windows实现ssh免密登录服务器

重点就是密钥生成:

ssh-keygen

然后上传公钥至服务器!

VScode远程访问

参考:VSCode内网远程连接服务器

注意:下载对应的ms-vscode-remote.remote-ssh插件时,内网和外网的VScode版本一定得一直,不然安装失败。

在执行完第2步时,我这在侧边栏中并不会出现远程连接的符号:

为了继续执行(),按F1调出命令控制,输入ssh ,选择:

在设置好连接信息后,选择对应的别名,根据提示填入密码,即可控制:

在远程给服务器安装vscode-server-linux-x64.tar.gz时,需要注意,替换commit_id即可,不加${}:

python 复制代码
mkdir -p ~/.vscode-server/bin/commit_id
tar -zxvf /tmp/vscode-server-linux-x64.tar.gz -C ~/.vscode-server/bin/commit_id --strip 1
touch ~/.vscode-server/bin/commit_id/0

这样就可以了!