【PyTorch Lightning】.ckpt 是什么?里面有什么?

  1. 什么是检查点(checkpoint, ckpt)?

当模型在训练过程中时,随着其不断接收更多数据,其性能也会发生变化。在训练过程中保存模型的状态是一种最佳实践。这样可以在开发模型的过程中,在每个关键点上获得模型的一个版本,即一个检查点。一旦训练完成,您可以使用在训练过程中找到的性能最佳的检查点。

检查点还使得训练在中断的情况下可以从中断的地方恢复。

PyTorch Lightning 检查点在普通的 PyTorch 中完全可用。

  1. .ckpt 检查点文件里面有什么?

一个 Lightning 检查点包含了模型的整个内部状态的转储。与普通的 PyTorch 不同,Lightning 保存了你在最复杂的分布式训练环境中恢复模型所需的一切。

在 Lightning 检查点中,您会找到:

  • 16 位精度训练的缩放因子(如果使用 16 位精度训练)
  • 当前的 epoch
  • 全局步数
  • LightningModule 的 state_dict
  • 所有优化器的状态
  • 所有学习率调度器的状态
  • 所有回调函数的状态(用于有状态回调函数)
  • 数据模块的状态(用于有状态数据模块)
  • 用于创建模型的超参数(初始参数)
  • 用于创建数据模块的超参数(初始参数)
  • 循环的状态
  1. state_dict 是什么?

nn.Module 的模型权重,具体使用方法如下。

Lightning checkpoints 完全兼容普通的 torch nn.Modules。

python 复制代码
checkpoint = torch.load(CKPT_PATH)
print(checkpoint.keys())

例如,假设像下面这样创建了一个 LightningModule:

python 复制代码
class Encoder(nn.Module):
    ...


class Decoder(nn.Module):
    ...


class Autoencoder(L.LightningModule):
    def __init__(self, encoder, decoder, *args, **kwargs):
        super().__init__()
        self.encoder = encoder
        self.decoder = decoder


autoencoder = Autoencoder(Encoder(), Decoder())

一旦autoencoder训练完成,就可以提取出与 torch nn.Module 相关的权重。

python 复制代码
checkpoint = torch.load(CKPT_PATH)
encoder_weights = {k: v for k, v in checkpoint["state_dict"].items() if k.startswith("encoder.")}
decoder_weights = {k: v for k, v in checkpoint["state_dict"].items() if k.startswith("decoder.")}

官方文档:https://lightning.ai/docs/pytorch/stable/common/checkpointing_basic.html

相关推荐
Ztopcloud极拓云视角1 分钟前
Claude Opus 4.8 实战接入指南:动态工作流 + 思考投入控制深度使用
大数据·人工智能·gpt·claude·deepseek
cxr8285 分钟前
高分子复合材料 AI 逆向设计合—— 认知基座与理论框架
人工智能·材料逆向设计合成
落叶无情7 分钟前
第二章 ICEF核心知识解读 第二节 ICEF:从“规律驱动提示“到“世界规律认知操作系统“的范式跃迁
人工智能
逻辑君9 分钟前
Foresight研究报告【20260014】
人工智能·深度学习
FserSuN9 分钟前
Machine Learning Specialization - Week 1, 9-20学习总结
人工智能·学习·机器学习
cxr8289 分钟前
高分子复合材料 AI 逆向设计合——核心生成引擎与物理约束架构
人工智能·架构·材料逆向合成
jiayong2312 分钟前
AI架构师面试问题与解答 - 机器学习基础篇
人工智能·机器学习
ZhengEnCi12 分钟前
09aba-将离散的 token ID 映射为连续的稠密向量
人工智能
YOLO数据集集合20 分钟前
低空林业巡检数据集|生态监测树木识别|深度学习树种分类数据集
人工智能·深度学习·yolo·目标检测·分类·无人机
weixin_4684668522 分钟前
机器学习之决策树新手实战指南
人工智能·python·算法·决策树·机器学习·ai