vscode调试pytorch分布式训练

launch.json文件如下"cwd"= "${fileDirname}"表示代码调试的根目录是当前你调试的文件,也就是pretrain.py所在的目录。其他路径参数都是相对这个目录的

如果改成"cwd"= "${workspaceFolder}" 表示代码调试的根目录是打开的工作目录,也就是你vscode打开的工程文件夹的目录

"program"参数是是我们要运行的文件,默认是"program": "${file}",也就是你要调试的文件本身,

比如不调试分布式的话,就是pretrain.py,分布式的话要改成"program": "/root/miniconda3/lib/python3.10/site-packages/torch/distributed/run.py"表示我们其实是要运行这个文件,然后加入args参数,把pretrain.py作为一个参数

注意:pytorch1.9之后torch.distributed.launch 即将被废弃,取而代之的是torch.distributed.run

https://www.cnblogs.com/tencent-cloud-native/p/15186403.html

而torchrun脚本就是torch.distributed.run的内容,所以在终端运行的话

bash 复制代码
python -m torch.distributed.run --nproc_per_node=8 pretrain.py --config ./configs/Pretrain.yaml --output_dir output/Pretrain

bash 复制代码
torchrun --nproc_per_node=8 pretrain.py --config ./configs/Pretrain.yaml --output_dir output/Pretrain

二者是等价的,终端直接输入torchrun

bash 复制代码
root@autodl-container-115911b7ae-3dcde09d:~# torchrun
usage: torchrun [-h] [--nnodes NNODES] [--nproc_per_node NPROC_PER_NODE]
                [--rdzv_backend RDZV_BACKEND] [--rdzv_endpoint RDZV_ENDPOINT]
                [--rdzv_id RDZV_ID] [--rdzv_conf RDZV_CONF] [--standalone]
                [--max_restarts MAX_RESTARTS] [--monitor_interval MONITOR_INTERVAL]
                [--start_method {spawn,fork,forkserver}] [--role ROLE] [-m] [--no_python]
                [--run_path] [--log_dir LOG_DIR] [-r REDIRECTS] [-t TEE]
                [--node_rank NODE_RANK] [--master_addr MASTER_ADDR]
                [--master_port MASTER_PORT]
                training_script ...
torchrun: error: the following arguments are required: training_script, training_script_args
root@autodl-container-115911b7ae-3dcde09d:~# which torchrun
/root/miniconda3/bin/torchrun

但vscode调试配置如下,如果直接用"program": "/root/miniconda3/bin/torchrun"也是可以的

"name": "Python: Current File", 可以改成 "name": "Python: torchrun" 不过这个不影响,只是调试窗口名字

python 复制代码
{
    // 使用 IntelliSense 了解相关属性。 
    // 悬停以查看现有属性的描述。
    // 欲了解更多信息,请访问: https://go.microsoft.com/fwlink/?linkid=830387
    "version": "0.2.0",
    "configurations": [
        {
            "name": "Python: Current File",
            "type": "python",
            "request": "launch",
            "program": "/root/miniconda3/lib/python3.10/site-packages/torch/distributed/run.py",
            "console": "integratedTerminal",
            "justMyCode": false,
            "cwd": "${fileDirname}",
            "args": [
                "--nproc_per_node=1",
                "pretrain.py",
                "--config=./configs/pretrain.yaml",
                "--output_dir=output/Pretrain"
            ],
            // "env": {"CUDA_VISIBLE_DEVICES":"0"},

        }
    ]
}

最后:建议在每个工程都创建一个.vscode文件夹,在里面建一个lanuch.json文件,因为每个工程运行脚本肯定都不一样,不要在/root目录搞一个.vscode文件夹,不然你每次都是打开/root文件夹都要修改lanuch.json的内容,每次VSCODE都只打开一个工程,不要直接打开root目录

相关推荐
程序猿追7 天前
那个右下角的小数字怎么“卡”住我打字——我用 HarmonyOS 自己写了一个字数限制输入框
pytorch·华为·harmonyos
闵孚龙7 天前
《PyTorch 深度修炼》Dataset 和 DataLoader:数据如何喂给模型
人工智能·pytorch·python
爱就是恒久忍耐7 天前
VSCode里如何比较2个branch
ide·vscode·编辑器
意法半导体STM327 天前
【官方原创】如何为STM32CubeMX2配置Visual Studio Code配置方案
vscode·stm32·单片机·嵌入式硬件·策略模式·stm32cubemx·嵌入式开发
bryant_meng7 天前
【VAE】From Pixels to Faces: Building a VAE from Scratch
pytorch·vae·log-sigma2·重参数
装不满的克莱因瓶7 天前
了解多标签图像分类方法——从Sigmoid输出到真实世界复杂视觉理解
人工智能·pytorch·python·深度学习·机器学习·分类·数据挖掘
bloglin999997 天前
vscode中可视化的合并分支,在“合并编辑器中解析”中“与基线进行比较”是什么意思
ide·vscode·编辑器
冷小鱼7 天前
TensorFlow 2.21 进阶实战:从训练优化到生产部署的完整指南
人工智能·pytorch·python·tensorflow
冷小鱼7 天前
PyTorch 2.12 完全指南:从动态图到编译优化的深度学习框架演进
人工智能·pytorch·深度学习
IRevers7 天前
【大模型】Gemma4在ROCm和vLLM部署
人工智能·pytorch·深度学习·大模型·datawhale·vllm·amdev