深度学习常用训练命令解释

深度学习项目的训练命令通常是是根据训练文件(train.py)设定来接收参数

举例参考

CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node 4 --master_port 12345 train.py --dataset rrsisd --model_id RMSIN --epochs 40 --img_size 480 2>&1 | tee ./output

命令解释

1.CUDA_VISIBLE_DEVICES=0,1,2,3:

  • 这个环境变量用于指定哪些 GPU 可用。在这里,设备 0 到 3 被设置为可用 GPU,这意味着你的程序将会使用这些 GPU 进行训练。

  • 单个GPU训练命令

python 复制代码
CUDA_VISIBLE_DEVICES=0 python train.py --dataset rrsisd --model_id RMSIN --epochs 40 --img_size 480 2>&1 | tee ./output
  1. python -m torch.distributed.launch:

    • 这是 PyTorch 的分布式训练模块。使用 -m 选项可以让 Python 作为模块运行,torch.distributed.launch 会负责启动多个进程。
  2. --nproc_per_node 4:

    • 指定每个节点(通常是每个机器)要启动的进程数。在这个例子中,指定为 4,这意味着会启动 4 个训练进程,分别使用前面指定的 4 个 GPU。
  3. --master_port 12345:

    • 这是用于进程间通信的主端口号。所有进程将通过这个端口进行通信。
  4. train.py:

    • 这是你的训练脚本文件,包含了模型训练的代码。
  5. --dataset rrsisd:

    • 指定要使用的数据集名称为 rrsisd。你需要确保在代码中相应地处理这个数据集。
  6. --model_id RMSIN:

    • 这是指定模型 ID 的参数。具体使用时需要在 train.py 中处理这个参数。
  7. --epochs 40:

    • 指定训练的轮数(epochs),在这个例子中为 40 轮。
  8. --img_size 480:

    • 指定输入图像的尺寸为 480(假设是正方形图像)。
  9. 2>&1 | tee ./output:

  • 2>&1 将标准错误输出(stderr)重定向到标准输出(stdout),确保所有输出都被捕获。
  • | tee ./output 将输出同时写入到 output 文件中,并在终端中显示。这样你可以在运行时查看日志,同时保留日志文件。
相关推荐
乐迪信息4 分钟前
乐迪信息:船体AI烟火检测,24小时火灾自动预警
人工智能·物联网·算法·目标检测·语音识别
且去填词7 分钟前
DeepSeek :基于 AST 与 AI 的遗留系统“手术刀”式治理方案
人工智能·自动化·llm·ast·agent·策略模式·deepseek
adaAS14143158 分钟前
【深度学习】YOLOv8-SOEP-RFPN-MFM实现太阳能电池板缺陷检测与分类_1
深度学习·yolo·分类
2501_921649499 分钟前
主流金融数据API对比:如何获取精准、及时的IPO数据
开发语言·python·金融·restful
llilian_169 分钟前
相位差测量仪 高精度相位计相位差测量仪的应用 相位计
大数据·人工智能·功能测试·单片机
云雾J视界9 分钟前
从Boost的设计哲学到工业实践:解锁下一代AI中间件架构的密码
c++·人工智能·中间件·架构·stackoverflow·boost
Coding茶水间11 分钟前
基于深度学习的驾驶行为检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
深度学习·qt·yolo
bing.shao18 分钟前
AI在电商上架图片领域的应用
开发语言·人工智能·golang
执笔论英雄19 分钟前
【RL】中Token级策略梯度损失
人工智能·pytorch·深度学习
百家方案21 分钟前
“十五五”智慧文旅解决方案:以科技为核心,开启沉浸体验与高效治理新篇章
大数据·人工智能·智慧文旅·智慧旅游