DAY 37 早停策略与模型权重保存

📝 DAY 37 早停策略与模型权重保存


一、怎么判断模型过拟合?

过拟合就是模型在训练集表现特别好,但在测试集表现变差的情况。

  • 方法:同时打印训练集和测试集的指标(比如损失、准确率)
  • 信号:训练集损失持续下降,测试集损失先降后升,两者差距越来越大 → 过拟合了!

二、模型保存的 3 种方式

根据不同需求,选不同保存方法:

方式 保存内容 优点 适用场景
仅保存权重 只存模型参数(轻量级) 文件小、加载快 ✅ 模型部署(推理)、跨设备迁移
保存权重 + 模型结构 连模型结构一起存 加载后直接用,不用重写网络结构 ✅ 快速验证、代码共享
保存全部信息(Checkpoint) 权重 + 模型结构 + 优化器状态 + 当前 epoch 数 支持断点续训 ✅ 长时间训练、意外中断后继续训练

💡 对应文件后缀:

  • 仅权重 / 权重 + 结构:.pth
  • Checkpoint(断点续训):.ckpt
  • 跨框架迁移(比如给 TensorFlow 用):导出为 .onnx 格式

三、早停策略(防止过拟合的神器)

早停就是在模型开始过拟合前,提前结束训练,不用跑完所有 epoch。

核心逻辑

patience(耐心值)和 counter(计数器)来监控测试集损失:

  • patience:允许测试集损失连续多少轮不改善的最大次数
  • counter:当前连续没改善的轮数

不同情况怎么处理?

测试集损失趋势 counter 状态 早停是否触发 训练结果
持续下降 始终为 0 ❌ 不触发 一直训练到设定的 num_epochs 轮结束
稳定 / 波动(没超过 patience) 小于 patience ❌ 不触发 继续训练,再观察几轮
上升且连续 patience 轮没改善 等于 patience ✅ 触发 提前终止训练,保存当前最好模型

四、一句话速记

  • 过拟合判断:看训练集和测试集指标差距
  • 保存选择 :部署用 .pth 权重,续训用 .ckpt 断点,跨框架用 .onnx
  • 早停逻辑 :测试集损失连续 patience 轮不改善,就停!

@浙大疏锦行

相关推荐
碳基硅坊9 分钟前
Mac Studio M3 Ultra 运行大模型实测:Qwen3.6 vs 6款主流模型工具调用对比
人工智能·qwen·qwen3.6
TeDi TIVE6 小时前
开源模型应用落地-工具使用篇-Spring AI-高阶用法(九)
人工智能·spring·开源
MY_TEUCK6 小时前
Sealos 平台部署实战指南:结合 Cursor 与版本发布流程
java·人工智能·学习·aigc
三毛的二哥7 小时前
BEV:典型BEV算法总结
人工智能·算法·计算机视觉·3d
j_xxx404_7 小时前
大语言模型 (LLM) 零基础入门:核心原理、训练机制与能力全解
人工智能·ai·transformer
飞哥数智坊7 小时前
全新 SOLO 在日常办公中的实际体验
人工智能·solo
南宫萧幕7 小时前
自控PID+MATLAB仿真+混动P0/P1/P2/P3/P4构型
算法·机器学习·matlab·simulink·控制·pid
<-->7 小时前
Megatron(全称 Megatron-LM,由 NVIDIA 开发)和 DeepSpeed(由 Microsoft 开发)
人工智能·pytorch·python·深度学习·transformer
朝新_7 小时前
【Spring AI 】图像与语音模型实战
java·人工智能·spring
Yuanxl9038 小时前
神经网络-Sequential 应用与实战
人工智能·深度学习·神经网络