AI 平台 GPU 节点上运行基于 PyTorch 的深度学习任务

摸鱼仙人~2025-01-05 9:52

要在 AI 平台 GPU 节点上运行基于 PyTorch 的深度学习任务，可按以下步骤进行操作：

1. 环境准备

首先，确保的环境中已经安装了 PyTorch 及其依赖项。如果尚未安装，可以通过以下步骤进行安装：

安装 Anaconda（如果尚未安装）：
bash 复制代码
```
wget https://repo.anaconda.com/archive/Anaconda3-2023.07-1-Linux-x86_64.sh
bash Anaconda3-2023.07-1-Linux-x86_64.sh
```
在安装过程中，接受协议并指定安装目录（例如 /share/home/yourname/apps/anaconda3）.

创建并激活 Conda 环境：

bash 复制代码

conda create -n pytorch_env python=3.8
conda activate pytorch_env

安装 PyTorch：
bash 复制代码
```
conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch
```
确保 cudatoolkit 的版本与集群中 CUDA 的版本兼容（根据集群的 CUDA 版本选择合适的版本）.

2. 编写提交脚本

创建一个脚本来提交的 PyTorch 训练作业。以下是一个基本的提交脚本示例：

bash 复制代码

#!/bin/bash
#BSUB -q gpu_v100 # 指定使用 gpu_v100 队列
#BSUB -J pytorch_job # 定义作业名
#BSUB -gpu "num=1" # 定义使用 1 块 GPU
#BSUB -n 4 # 定义任务数（例如使用 4 个 CPU 核心）
#BSUB -o %J.out # 定义输出文件名
#BSUB -e %J.err # 定义错误输出文件名

# 加载环境变量
module load cuda/10.0
source /share/home/yourname/apps/anaconda3/bin/activate pytorch_env

# 运行 PyTorch 训练脚本
python /path/to/your/training_script.py

3. 提交作业

将上述脚本保存为一个文件，例如 submit_pytorch.sh，然后使用 bsub 命令提交作业：

bash 复制代码

bsub < submit_pytorch.sh

4. 监控作业

可以使用以下命令来监控作业的状态：

查看作业队列：
bash 复制代码
```
bjobs
```
查看作业的详细信息：
bash 复制代码
```
bpeek <job_id>
```