DAY 37 早停策略与模型权重保存

📝 DAY 37 早停策略与模型权重保存


一、怎么判断模型过拟合?

过拟合就是模型在训练集表现特别好,但在测试集表现变差的情况。

  • 方法:同时打印训练集和测试集的指标(比如损失、准确率)
  • 信号:训练集损失持续下降,测试集损失先降后升,两者差距越来越大 → 过拟合了!

二、模型保存的 3 种方式

根据不同需求,选不同保存方法:

方式 保存内容 优点 适用场景
仅保存权重 只存模型参数(轻量级) 文件小、加载快 ✅ 模型部署(推理)、跨设备迁移
保存权重 + 模型结构 连模型结构一起存 加载后直接用,不用重写网络结构 ✅ 快速验证、代码共享
保存全部信息(Checkpoint) 权重 + 模型结构 + 优化器状态 + 当前 epoch 数 支持断点续训 ✅ 长时间训练、意外中断后继续训练

💡 对应文件后缀:

  • 仅权重 / 权重 + 结构:.pth
  • Checkpoint(断点续训):.ckpt
  • 跨框架迁移(比如给 TensorFlow 用):导出为 .onnx 格式

三、早停策略(防止过拟合的神器)

早停就是在模型开始过拟合前,提前结束训练,不用跑完所有 epoch。

核心逻辑

patience(耐心值)和 counter(计数器)来监控测试集损失:

  • patience:允许测试集损失连续多少轮不改善的最大次数
  • counter:当前连续没改善的轮数

不同情况怎么处理?

测试集损失趋势 counter 状态 早停是否触发 训练结果
持续下降 始终为 0 ❌ 不触发 一直训练到设定的 num_epochs 轮结束
稳定 / 波动(没超过 patience) 小于 patience ❌ 不触发 继续训练,再观察几轮
上升且连续 patience 轮没改善 等于 patience ✅ 触发 提前终止训练,保存当前最好模型

四、一句话速记

  • 过拟合判断:看训练集和测试集指标差距
  • 保存选择 :部署用 .pth 权重,续训用 .ckpt 断点,跨框架用 .onnx
  • 早停逻辑 :测试集损失连续 patience 轮不改善,就停!

@浙大疏锦行

相关推荐
AEIC学术交流中心2 小时前
【快速EI检索 | ACM出版】2026年人工智能、数字媒体与教育国际学术会议(AIDME 2026)
人工智能·媒体
lisw052 小时前
知识管理与AI奇点有何关系?
人工智能·机器学习
中科院提名者2 小时前
CoT(思维链)和ReAct
人工智能
码农小白AI2 小时前
AI报告审核驱动质量升级:IACheck助力动力系统检测报告稳步提升
人工智能
北京软秦科技有限公司2 小时前
AI报告文档审核守护医疗安全:IACheck助力口腔器械消毒检测报告全面合规
大数据·人工智能·安全
运维小欣2 小时前
2026 企业可观测性平台选型白皮书
大数据·人工智能
Java_ESS2 小时前
终端 AI 编程完全指南:Claude Code 和 OpenCode 深度使用教程
人工智能·ai·ai编程
dazzle2 小时前
机器学习算法原理与实践-入门(七):深度学习框架PyTorch的Tensor
深度学习·算法·机器学习
zbdx不知名菜鸡2 小时前
SwanLab 在监控什么?
人工智能·算法·机器学习