DAY 37 早停策略与模型权重保存

章鱼丸-2026-03-26 13:00

📝 DAY 37 早停策略与模型权重保存

一、怎么判断模型过拟合？

过拟合就是模型在训练集表现特别好，但在测试集表现变差的情况。

方法：同时打印训练集和测试集的指标（比如损失、准确率）
信号：训练集损失持续下降，测试集损失先降后升，两者差距越来越大 → 过拟合了！

二、模型保存的 3 种方式

根据不同需求，选不同保存方法：

方式	保存内容	优点	适用场景
仅保存权重	只存模型参数（轻量级）	文件小、加载快	✅ 模型部署（推理）、跨设备迁移
保存权重 + 模型结构	连模型结构一起存	加载后直接用，不用重写网络结构	✅ 快速验证、代码共享
保存全部信息（Checkpoint）	权重 + 模型结构 + 优化器状态 + 当前 epoch 数	支持断点续训	✅ 长时间训练、意外中断后继续训练

💡 对应文件后缀：

仅权重 / 权重 + 结构：.pth
Checkpoint（断点续训）：.ckpt
跨框架迁移（比如给 TensorFlow 用）：导出为 .onnx 格式

三、早停策略（防止过拟合的神器）

早停就是在模型开始过拟合前，提前结束训练，不用跑完所有 epoch。

核心逻辑

用 patience（耐心值）和 counter（计数器）来监控测试集损失：

patience：允许测试集损失连续多少轮不改善的最大次数
counter：当前连续没改善的轮数

不同情况怎么处理？

测试集损失趋势	counter 状态	早停是否触发	训练结果
持续下降	始终为 0	❌ 不触发	一直训练到设定的 `num_epochs` 轮结束
稳定 / 波动（没超过 patience）	小于 patience	❌ 不触发	继续训练，再观察几轮
上升且连续 `patience` 轮没改善	等于 patience	✅ 触发	提前终止训练，保存当前最好模型

四、一句话速记

过拟合判断：看训练集和测试集指标差距
保存选择 ：部署用 .pth 权重，续训用 .ckpt 断点，跨框架用 .onnx
早停逻辑 ：测试集损失连续 patience 轮不改善，就停！

@浙大疏锦行

上一篇：【MySQL | 第一篇】深入理解三大日志(undo Redo Bin)

下一篇：[数据结构]栈和队列的互相模拟实现

热门推荐

01GitHub 镜像站点 02如何新建文件夹？电脑新建文件夹的4种方法 03国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08Agnes AI 免费 API 接入指南：文本、生图、生视频，一套接口全免费 092026 年 AI 大模型 & AI 编程工具实战全总结 10AI科技热点日报 | 2026年07月01日