【杂谈】SNNU公共计算平台:深度学习服务器配置与远程开发指北

SNNU公共计算平台:深度学习服务器配置与远程开发指北

适用范围: SNNU公共计算平台(SNNU Public Computing Platform)

适用硬件: NVIDIA RTX 3090 / 4090 实例

操作系统环境: Ubuntu LTS (虚拟化环境)

文档版本: v3.0 (2025 Revised Edition)


1. 前言与注意事项

看来看去官方的教程对自己来说有点太难看懂了QAQ,又找不到好的总结比较完整的教程,所以自己写一篇经过亲手实践跑通的新教程!你可能听说过"服务器配置环境"是深度学习的第一道坎,无数英雄好汉在这里掉头发。但别担心,这份教程汇集了无数次踩坑后的血泪经验,专门针对咱们学校平台(Ubuntu 老内核 + 新显卡)的特性进行了优化。来帮助想要使用学校服务器资源的同学老师们!(有问题和解决方法欢迎留言!)

由于服务器虚拟化环境的特殊性(宿主机配置、Linux 内核版本等因素),直接使用最新的开发工具或默认安装命令可能会导致连接失败或环境报错。(多问GPT慢慢找解决方案,不行在群里问一下管理员老师~

本指南旨在提供一套经过验证的最佳实践流程(踩了好多坑总结出来的XD),帮助您在本地计算机(Windows/Mac)上搭建稳定、高效的远程开发环境。

📚 官方帮助文档

关于平台计费、账户充值、实例管理等基础操作,请务必优先阅读平台官方文档:

http://ailab.snnu.edu.cn/help/index.html


2. 实例获取与连接信息

在开始配置前,请登录计算平台控制台,确认您的实例状态为 "运行中"(绿色圆点),并获取以下关键连接信息:

申请排队到资源后点击

得到以下信息

  • IP 地址 (HostName) :例如 10.8.51.xx
  • 端口号 (Port) :例如 2xxxx(注意:通常不是默认的 22 端口)
  • 用户名 (User) :默认为 root
  • 初始密码 :首次使用请点击实例列表中的"钥匙"图标设置或重置密码。

3. 开发工具配置 (VS Code 兼容性解决方案)

由于服务器操作系统内核版本限制,最新版的 VS Code Server 可能会出现无法启动的问题。(然而Pycharm需要用专业版或者教育版才可以用SSH的功能,秉持着VsCode的免费开源友好性所以用这个)我们需要配置一个**便携版(Portable)**的旧版本 VS Code 来确保稳定性。

3.1 获取特定版本软件

请下载 VS Code v1.85.2 的压缩包版本:

3.2 制作便携版 (关键步骤)

  1. 将压缩包解压至任意路径(推荐非系统盘,如 D:\Softwares\VSCode-SNNU)。
  2. 进入解压后的文件夹,在 Code.exe 同级目录下,新建一个名为 data 的文件夹
    • 原理解释 :当 VS Code 检测到 data 文件夹时,会自动进入"便携模式",将所有插件、缓存和配置文件存储在该文件夹内,避免与本机已安装的 VS Code 产生冲突。

3.3 插件降级处理

  1. 双击 Code.exe 启动软件。
  2. 在左侧扩展商店搜索 Remote - SSH
  3. 点击插件旁的齿轮图标 ⚙️,选择 "Install Another Version..." (安装另一个版本)
  4. 在列表中选择 v0.107.1 (2023年版本) 进行安装。
  5. 安装完成后,建议右键点击插件,取消勾选 "Auto Update",防止自动更新导致连接失效。

3.4 配置 SSH 连接

在VsCode点击vscode左侧安装好的远程资源管理器

在VsCode下载好Remote SSH后 点击+号 添加新主机

输入连接的代码

例如: ssh username@10.8.51.xx -p 2xxxx

输入刚才设置的密码:

选择Linux:

左下方会显示连接成功!

也可以这样:

  1. 点击左下角绿色图标 ><,选择 Open SSH Configuration File
  2. 编辑配置文件,填入您的实例信息:
bash 复制代码
Host SNNU-Server
    HostName 10.x.x.x      # 替换为平台显示的 IP 地址
    Port xxxxx             # 替换为平台显示的 端口号
    User root              # 用户名
  1. 保存文件。点击左侧"远程资源管理器",右键目标服务器选择连接,输入密码即可。

4. 文件传输管理

配置好 VS Code 后,您无需安装 Xftp 或 FileZilla 等第三方 FTP 软件,可直接在编辑器内高效管理文件。

  • 上传文件/文件夹:

    直接将本地电脑中的文件或文件夹,**拖拽(Drag & Drop)**至 VS Code 左侧的"资源管理器"文件列表中,即可自动上传。

  • 下载文件:

    在远程文件列表中,右键点击需要下载的文件,选择 Download...,即可保存至本地。


5. 显卡驱动安装 (470 Server 版)

⚠️ 警告 :在虚拟化环境下,安装最新的 NVIDIA 535/550 驱动极易导致 No devices were found 错误。请严格按照以下步骤安装 470 Server 版本

在 VS Code 下方的终端(Terminal)中依次执行:

bash 复制代码
# 1. 清理可能存在的残留驱动
sudo apt-get purge -y '*nvidia*'
sudo apt-get autoremove -y

# 2. 更新软件源
sudo apt update

# 3. 安装 470 Server 版驱动 (不含图形界面,稳定性更高)
sudo apt install -y nvidia-driver-470-server

# 4. 锁定驱动版本,防止系统自动升级破坏环境
sudo apt-mark hold nvidia-driver-470-server

# 5. 重启实例以加载内核模块 (必须执行)
reboot

重启等待约 1 分钟后重新连接,在终端输入 nvidia-smi。如果正确显示显卡型号(如 RTX 3090)及显存信息,即表示驱动安装成功。


6. 终端环境美化

默认的 Linux 终端提示符颜色单一,不利于区分命令与输出结果。建议应用以下配置进行美化。

我自己用的是这套配色方案啦↓

复制以下命令至终端并回车:

bash 复制代码
# 1. 备份配置文件
cp ~/.bashrc ~/.bashrc.bak

# 2. 写入高亮配色配置
# 青色=用户, 蓝色=分隔符, 绿色=主机名, 黄色=当前路径, 红色=提示符
echo 'export PS1="\[\e[1;36m\]● \u\[\e[1;34m\]@\[\e[1;32m\]\h\[\e[1;34m\]:\[\e[1;33m\]\w\[\e[0m\] \[\e[1;31m\]\\$ \[\e[0m\]"' >> ~/.bashrc

# 3. 立即生效
source ~/.bashrc

7. Python 深度学习环境搭建 (核心避坑)

为了避免 Intel MKL 库冲突(常见报错为 undefined symbol: iJIT_NotifyEvent),请严格遵循 "Anaconda 管理环境,Pip 安装核心库" 的原则。

7.1 安装 Anaconda

bash 复制代码
wget https://repo.anaconda.com/archive/Anaconda3-2024.02-1-Linux-x86_64.sh
bash Anaconda3-2024.02-1-Linux-x86_64.sh
# 安装过程中按 Enter 阅读协议,输入 yes 接受,最后输入 yes 初始化 conda
source ~/.bashrc

7.2 创建虚拟环境

推荐使用 Python 3.11 或 3.10 版本。

(按自己的项目需求来即可

bash 复制代码
conda create -n torch python=3.11 -y
conda activate torch

7.3 安装 PyTorch (使用 Pip 源)

注意 :切勿使用 conda install pytorch。我这样装老是出各种问题QAQ但是下面这个可以

请使用以下命令从官方源安装适配 CUDA 11.8 的版本:

bash 复制代码
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

7.4 安装图神经网络库 (PyG)

(我自己的项目需要用这个)

PyG 依赖包必须与 PyTorch 版本严格对应。

bash 复制代码
pip install torch_geometric
# 安装核心依赖 (链接中的 2.5.1 需替换为您实际安装的 torch 版本号)
pip install torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-2.5.1+cu118.html

7.5 安装其他常用库

根据自己的需要来啦,这里列举一些常见的:

bash 复制代码
pip install numpy scipy pandas networkx matplotlib scikit-learn tqdm pm4py

8. 环境验证

完成上述所有步骤后,请在终端输入 python 进入交互模式,运行以下测试代码:

python 复制代码
import torch
print("CUDA Status:", torch.cuda.is_available())
print("Device Name:", torch.cuda.get_device_name(0))
  • 若输出 TrueNVIDIA GeForce RTX 3090,则说明环境配置完美,可以开始进行科研工作!!!

文档维护: Type-C

最后更新: 2025年11月

相关推荐
桜吹雪36 分钟前
LangChain.js/DeepAgents可观测性
javascript·人工智能
乌恩大侠37 分钟前
Spark 机器上修改缓冲区大小
人工智能·usrp
STLearner39 分钟前
AI论文速读 | U-Cast:学习高维时间序列预测的层次结构
大数据·论文阅读·人工智能·深度学习·学习·机器学习·数据挖掘
数字化顾问41 分钟前
(65页PPT)大型集团物料主数据管理系统建设规划方案(附下载方式)
大数据·运维·人工智能
翼龙云_cloud1 小时前
阿里云渠道商:新手怎么操作阿里云无影云电脑?
运维·服务器·阿里云·云计算·电脑
拾忆,想起1 小时前
Dubbo服务调用流程全解析:从请求到响应的微服务通信之旅
服务器·网络·微服务·云原生·架构·dubbo
新知图书2 小时前
FastGPT版本体系概览
人工智能·ai agent·智能体·大模型应用开发·大模型应用
老蒋新思维2 小时前
创客匠人 2025 全球创始人 IP+AI 万人高峰论坛:AI 赋能下知识变现与 IP 变现的实践沉淀与行业启示
大数据·人工智能·网络协议·tcp/ip·重构·创始人ip·创客匠人