torch lighting 保存最优模型和最后模型

python 复制代码
early_stop_callback = EarlyStopping(monitor="val/body_pix", mode="min", patience=args.early_stop)

ckpt_callback = ModelCheckpoint(
    monitor='val/body_pix',
    save_top_k=1,
    mode='min',
    dirpath=args.save_path,
    # filename='body_pixel-epoch={epoch}-val_body_pix={val/body_pix:.4f}',
    filename='best-{}'.format(args.save_name),
    auto_insert_metric_name=False
)

last_callback = ModelCheckpoint(
    every_n_epochs=args.max_epochs,
    save_top_k=1,
    dirpath=args.save_path,
    # filename='body_pixel-epoch={epoch}-val_body_pix={val/body_pix:.4f}',
    filename='last-{}'.format(args.save_name),
    auto_insert_metric_name=False
)

trainer = pl.Trainer(
    accelerator=accelerator, devices=args.devices,
    strategy=strategy,
    # sync_batchnorm=True,
    default_root_dir=args.default_log_path,
    # gradient_clip_val=args.gradient_clip_val,
    precision="bf16-mixed",
    max_epochs=args.max_epochs,
    callbacks=[early_stop_callback, ckpt_callback, last_callback]
)

ref:https://lightning.ai/docs/pytorch/stable/api/lightning.pytorch.callbacks.ModelCheckpoint.html#lightning.pytorch.callbacks.ModelCheckpoint

相关推荐
高洁0139 分钟前
DNN案例一步步构建深层神经网络(二)
人工智能·python·深度学习·算法·机器学习
Coding茶水间1 小时前
基于深度学习的螺栓螺母检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
图像处理·人工智能·深度学习·yolo·目标检测·机器学习·计算机视觉
AI小怪兽1 小时前
RF-DETR:实时检测Transformer的神经架构搜索,首个突破 60 AP 的实时检测器 | ICLR 2026 in Submission
人工智能·深度学习·yolo·目标检测·架构·transformer
【建模先锋】1 小时前
故障诊断模型讲解:基于1D-CNN、2D-CNN分类模型的详细教程!
人工智能·深度学习·分类·cnn·卷积神经网络·故障诊断·轴承故障诊断
其美杰布-富贵-李2 小时前
tsai 中 Learner 机制深度学习笔记
人工智能·笔记·深度学习
一瞬祈望2 小时前
ImportError: cannot import name ‘OrderedDict‘ from ‘typing‘ 问题解决
pytorch·python3.7
LinkTime_Cloud3 小时前
谷歌深夜突袭:免费Flash模型发令,部分测试优于 GPT-5.2
人工智能·gpt·深度学习
Aspect of twilight3 小时前
深度学习不同GPU性能比较
人工智能·深度学习
丝瓜蛋汤3 小时前
chunking-free RAG简介
人工智能·深度学习·机器学习
STLearner4 小时前
VLDB 2025 | 时间序列(Time Series)论文总结(预测,异常检测,压缩,自动化等)
数据库·人工智能·深度学习·神经网络·机器学习·数据挖掘·时序数据库