DAY 37 早停策略与模型权重保存

📝 DAY 37 早停策略与模型权重保存


一、怎么判断模型过拟合?

过拟合就是模型在训练集表现特别好,但在测试集表现变差的情况。

  • 方法:同时打印训练集和测试集的指标(比如损失、准确率)
  • 信号:训练集损失持续下降,测试集损失先降后升,两者差距越来越大 → 过拟合了!

二、模型保存的 3 种方式

根据不同需求,选不同保存方法:

方式 保存内容 优点 适用场景
仅保存权重 只存模型参数(轻量级) 文件小、加载快 ✅ 模型部署(推理)、跨设备迁移
保存权重 + 模型结构 连模型结构一起存 加载后直接用,不用重写网络结构 ✅ 快速验证、代码共享
保存全部信息(Checkpoint) 权重 + 模型结构 + 优化器状态 + 当前 epoch 数 支持断点续训 ✅ 长时间训练、意外中断后继续训练

💡 对应文件后缀:

  • 仅权重 / 权重 + 结构:.pth
  • Checkpoint(断点续训):.ckpt
  • 跨框架迁移(比如给 TensorFlow 用):导出为 .onnx 格式

三、早停策略(防止过拟合的神器)

早停就是在模型开始过拟合前,提前结束训练,不用跑完所有 epoch。

核心逻辑

patience(耐心值)和 counter(计数器)来监控测试集损失:

  • patience:允许测试集损失连续多少轮不改善的最大次数
  • counter:当前连续没改善的轮数

不同情况怎么处理?

测试集损失趋势 counter 状态 早停是否触发 训练结果
持续下降 始终为 0 ❌ 不触发 一直训练到设定的 num_epochs 轮结束
稳定 / 波动(没超过 patience) 小于 patience ❌ 不触发 继续训练,再观察几轮
上升且连续 patience 轮没改善 等于 patience ✅ 触发 提前终止训练,保存当前最好模型

四、一句话速记

  • 过拟合判断:看训练集和测试集指标差距
  • 保存选择 :部署用 .pth 权重,续训用 .ckpt 断点,跨框架用 .onnx
  • 早停逻辑 :测试集损失连续 patience 轮不改善,就停!

@浙大疏锦行

相关推荐
吴佳浩16 分钟前
OpenClaw最严厉的父亲- 使用优化建议
人工智能·llm·agent
安吉升科技25 分钟前
ai双目智能客流摄像头是什么?有哪些作用呢?
人工智能
大势智慧33 分钟前
大势智慧与您相约2026世界无人机大会暨UASE无人机展
人工智能·无人机·趋势·未来·低空经济·空间智能·世界无人机大会
云烟成雨TD35 分钟前
Spring AI Alibaba 1.x 系列【52】Interrupts 中断机制:节点执行前后静态中断
java·人工智能·spring
染指11101 小时前
3.AI大模型-token是什么-大模型底层运行机制
人工智能·算法·机器学习
stsdddd1 小时前
【YOLO算法多类别野生动物识别目标检测数据集】
人工智能·yolo·目标检测
qq_411262421 小时前
四博AI眼罩方案升级:白噪音、音乐助眠、AI情绪陪伴,把智能音箱戴在身
人工智能·智能音箱
han_1 小时前
AI Skill 是什么?一篇讲清楚它和 Prompt、MCP 的区别
人工智能·ai编程·mcp
实习僧企业版1 小时前
从“抢人”到“识人”,回归匹配本质
大数据·人工智能·雇主品牌·招聘技巧
杰建云1671 小时前
多商家入驻小程序平台怎么做
人工智能·小程序