【杂谈】SNNU公共计算平台:深度学习服务器配置与远程开发指北

SNNU公共计算平台:深度学习服务器配置与远程开发指北

适用范围: SNNU公共计算平台(SNNU Public Computing Platform)

适用硬件: NVIDIA RTX 3090 / 4090 实例

操作系统环境: Ubuntu LTS (虚拟化环境)

文档版本: v3.0 (2025 Revised Edition)


1. 前言与注意事项

看来看去官方的教程对自己来说有点太难看懂了QAQ,又找不到好的总结比较完整的教程,所以自己写一篇经过亲手实践跑通的新教程!你可能听说过"服务器配置环境"是深度学习的第一道坎,无数英雄好汉在这里掉头发。但别担心,这份教程汇集了无数次踩坑后的血泪经验,专门针对咱们学校平台(Ubuntu 老内核 + 新显卡)的特性进行了优化。来帮助想要使用学校服务器资源的同学老师们!(有问题和解决方法欢迎留言!)

由于服务器虚拟化环境的特殊性(宿主机配置、Linux 内核版本等因素),直接使用最新的开发工具或默认安装命令可能会导致连接失败或环境报错。(多问GPT慢慢找解决方案,不行在群里问一下管理员老师~

本指南旨在提供一套经过验证的最佳实践流程(踩了好多坑总结出来的XD),帮助您在本地计算机(Windows/Mac)上搭建稳定、高效的远程开发环境。

📚 官方帮助文档

关于平台计费、账户充值、实例管理等基础操作,请务必优先阅读平台官方文档:

http://ailab.snnu.edu.cn/help/index.html


2. 实例获取与连接信息

在开始配置前,请登录计算平台控制台,确认您的实例状态为 "运行中"(绿色圆点),并获取以下关键连接信息:

申请排队到资源后点击

得到以下信息

  • IP 地址 (HostName) :例如 10.8.51.xx
  • 端口号 (Port) :例如 2xxxx(注意:通常不是默认的 22 端口)
  • 用户名 (User) :默认为 root
  • 初始密码 :首次使用请点击实例列表中的"钥匙"图标设置或重置密码。

3. 开发工具配置 (VS Code 兼容性解决方案)

由于服务器操作系统内核版本限制,最新版的 VS Code Server 可能会出现无法启动的问题。(然而Pycharm需要用专业版或者教育版才可以用SSH的功能,秉持着VsCode的免费开源友好性所以用这个)我们需要配置一个**便携版(Portable)**的旧版本 VS Code 来确保稳定性。

3.1 获取特定版本软件

请下载 VS Code v1.85.2 的压缩包版本:

3.2 制作便携版 (关键步骤)

  1. 将压缩包解压至任意路径(推荐非系统盘,如 D:\Softwares\VSCode-SNNU)。
  2. 进入解压后的文件夹,在 Code.exe 同级目录下,新建一个名为 data 的文件夹
    • 原理解释 :当 VS Code 检测到 data 文件夹时,会自动进入"便携模式",将所有插件、缓存和配置文件存储在该文件夹内,避免与本机已安装的 VS Code 产生冲突。

3.3 插件降级处理

  1. 双击 Code.exe 启动软件。
  2. 在左侧扩展商店搜索 Remote - SSH
  3. 点击插件旁的齿轮图标 ⚙️,选择 "Install Another Version..." (安装另一个版本)
  4. 在列表中选择 v0.107.1 (2023年版本) 进行安装。
  5. 安装完成后,建议右键点击插件,取消勾选 "Auto Update",防止自动更新导致连接失效。

3.4 配置 SSH 连接

在VsCode点击vscode左侧安装好的远程资源管理器

在VsCode下载好Remote SSH后 点击+号 添加新主机

输入连接的代码

例如: ssh username@10.8.51.xx -p 2xxxx

输入刚才设置的密码:

选择Linux:

左下方会显示连接成功!

也可以这样:

  1. 点击左下角绿色图标 ><,选择 Open SSH Configuration File
  2. 编辑配置文件,填入您的实例信息:
bash 复制代码
Host SNNU-Server
    HostName 10.x.x.x      # 替换为平台显示的 IP 地址
    Port xxxxx             # 替换为平台显示的 端口号
    User root              # 用户名
  1. 保存文件。点击左侧"远程资源管理器",右键目标服务器选择连接,输入密码即可。

4. 文件传输管理

配置好 VS Code 后,您无需安装 Xftp 或 FileZilla 等第三方 FTP 软件,可直接在编辑器内高效管理文件。

  • 上传文件/文件夹:

    直接将本地电脑中的文件或文件夹,**拖拽(Drag & Drop)**至 VS Code 左侧的"资源管理器"文件列表中,即可自动上传。

  • 下载文件:

    在远程文件列表中,右键点击需要下载的文件,选择 Download...,即可保存至本地。


5. 显卡驱动安装 (470 Server 版)

⚠️ 警告 :在虚拟化环境下,安装最新的 NVIDIA 535/550 驱动极易导致 No devices were found 错误。请严格按照以下步骤安装 470 Server 版本

在 VS Code 下方的终端(Terminal)中依次执行:

bash 复制代码
# 1. 清理可能存在的残留驱动
sudo apt-get purge -y '*nvidia*'
sudo apt-get autoremove -y

# 2. 更新软件源
sudo apt update

# 3. 安装 470 Server 版驱动 (不含图形界面,稳定性更高)
sudo apt install -y nvidia-driver-470-server

# 4. 锁定驱动版本,防止系统自动升级破坏环境
sudo apt-mark hold nvidia-driver-470-server

# 5. 重启实例以加载内核模块 (必须执行)
reboot

重启等待约 1 分钟后重新连接,在终端输入 nvidia-smi。如果正确显示显卡型号(如 RTX 3090)及显存信息,即表示驱动安装成功。


6. 终端环境美化

默认的 Linux 终端提示符颜色单一,不利于区分命令与输出结果。建议应用以下配置进行美化。

我自己用的是这套配色方案啦↓

复制以下命令至终端并回车:

bash 复制代码
# 1. 备份配置文件
cp ~/.bashrc ~/.bashrc.bak

# 2. 写入高亮配色配置
# 青色=用户, 蓝色=分隔符, 绿色=主机名, 黄色=当前路径, 红色=提示符
echo 'export PS1="\[\e[1;36m\]● \u\[\e[1;34m\]@\[\e[1;32m\]\h\[\e[1;34m\]:\[\e[1;33m\]\w\[\e[0m\] \[\e[1;31m\]\\$ \[\e[0m\]"' >> ~/.bashrc

# 3. 立即生效
source ~/.bashrc

7. Python 深度学习环境搭建 (核心避坑)

为了避免 Intel MKL 库冲突(常见报错为 undefined symbol: iJIT_NotifyEvent),请严格遵循 "Anaconda 管理环境,Pip 安装核心库" 的原则。

7.1 安装 Anaconda

bash 复制代码
wget https://repo.anaconda.com/archive/Anaconda3-2024.02-1-Linux-x86_64.sh
bash Anaconda3-2024.02-1-Linux-x86_64.sh
# 安装过程中按 Enter 阅读协议,输入 yes 接受,最后输入 yes 初始化 conda
source ~/.bashrc

7.2 创建虚拟环境

推荐使用 Python 3.11 或 3.10 版本。

(按自己的项目需求来即可

bash 复制代码
conda create -n torch python=3.11 -y
conda activate torch

7.3 安装 PyTorch (使用 Pip 源)

注意 :切勿使用 conda install pytorch。我这样装老是出各种问题QAQ但是下面这个可以

请使用以下命令从官方源安装适配 CUDA 11.8 的版本:

bash 复制代码
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

7.4 安装图神经网络库 (PyG)

(我自己的项目需要用这个)

PyG 依赖包必须与 PyTorch 版本严格对应。

bash 复制代码
pip install torch_geometric
# 安装核心依赖 (链接中的 2.5.1 需替换为您实际安装的 torch 版本号)
pip install torch_scatter torch_sparse torch_cluster torch_spline_conv -f https://data.pyg.org/whl/torch-2.5.1+cu118.html

7.5 安装其他常用库

根据自己的需要来啦,这里列举一些常见的:

bash 复制代码
pip install numpy scipy pandas networkx matplotlib scikit-learn tqdm pm4py

8. 环境验证

完成上述所有步骤后,请在终端输入 python 进入交互模式,运行以下测试代码:

python 复制代码
import torch
print("CUDA Status:", torch.cuda.is_available())
print("Device Name:", torch.cuda.get_device_name(0))
  • 若输出 TrueNVIDIA GeForce RTX 3090,则说明环境配置完美,可以开始进行科研工作!!!

文档维护: Type-C

最后更新: 2025年11月

相关推荐
Tim风声(网络工程师)2 分钟前
防火墙-长链接、介绍作用
运维·服务器·网络
PaperRed ai写作降重助手4 分钟前
AI 论文写作工具排名(实测不踩坑)
人工智能·aigc·ai写作·论文写作·智能降重·辅助写作·降重复率
ktoking4 分钟前
Stock Agent AI 模型的选股器实现 [五]
人工智能·python
qwy7152292581638 分钟前
10-图像的翻转
人工智能·opencv·计算机视觉
霍格沃兹测试学院-小舟畅学9 分钟前
Playwright企业级测试架构设计:模块化与可扩展性
人工智能·测试工具
卡奥斯开源社区官方14 分钟前
深度拆解:Clawdbot“集体永生”技术内核,是AI协同突破还是营销噱头?
人工智能
小W与影刀RPA17 分钟前
【影刀 RPA】 :文档敏感词批量替换,省时省力又高效
人工智能·python·低代码·自动化·rpa·影刀rpa
小徐敲java25 分钟前
(运维)1Panel服务器面板Docker部署
运维·服务器·docker
小咖自动剪辑30 分钟前
12306余票监控辅助工具详解:自动查询/多方案预约/到点提交
人工智能
得赢科技34 分钟前
智能菜谱研发公司推荐 适配中小型餐饮
大数据·运维·人工智能