Safetensors 扩散模型的结构解析(checkpoint & diffusers)

Safetensors 模型的结构解析:Checkpoint 与 Diffusers 的差异

你是否遇到过下载的Stable Diffusion Safetensors模型缺少VAE和CLIP模型?

你是否想知道下载的几十GB的模型文件是否损坏?

本文给出解答!


在 Stable Diffusion 的生态里,模型有两种常见的封装形式:Checkpoint 格式Diffusers 格式

一、Checkpoint 格式(传统 SD 封装)

在 CompVis 原版 Stable Diffusion 中,所有组件(UNet、CLIP、VAE)通常打包在一个 .ckpt.safetensors 文件里。键名的命名习惯如下:

  • UNetmodel.diffusion_model.*
  • CLIP/Text Encodercond_stage_model.*
  • VAEfirst_stage_model.*

这种命名方式直接对应论文里的"阶段"概念:

  • 第一阶段(first stage):VAE,负责图像 ↔ 潜空间转换
  • 第二阶段(diffusion model):UNet,负责潜空间去噪
  • 条件阶段(cond stage):CLIP,负责文本条件编码

优点是下载即用,缺点是难以替换单个模块。


二、Diffusers 格式(工程化封装)

Hugging Face 的 Diffusers 库采用模块化设计,将各组件拆分到不同目录中,并用 model_index.json 描述组合关系。常见目录结构:

复制代码
├── unet/
├── vae/
├── text_encoder/
├── scheduler/
├── model_index.json

实例:

UNET模型在unet目录里,CLIP和VAE在text_encoder 和 vae目录里。

这种方式更透明,方便替换和扩展,但文件较多。要下载全部文件才能使用。


三、如何验证 safetensors 文件结构

你可以用 Python 代码快速查看 safetensors 文件的键和模块前缀,来判断你下载的是一个checkpoint模型还是单独的Unet模型:

复制代码
from safetensors import safe_open

model_path = "E:\\xxx_ckptsafetensors"

with safe_open(model_path, framework="pt", device="cpu") as f:
    keys = f.keys()
    print("键数量:", len(keys))
    rs = []
    for k in list(keys):
        nn = str(k).split(".")
        nm_prefix = ""
        if len(nn) >= 2:
            nm_prefix = nn[0] + "." + nn[1]
        else:
            nm_prefix = str(k)
        if nm_prefix not in rs:
            rs.append(nm_prefix)
    print(rs)

如果是 Checkpoint 格式,你会看到 model.diffusion_model.*, first_stage 等前缀。

比如:

复制代码
键数量: 2515
['conditioner.embedders', 'first_stage_model.decoder', 'first_stage_model.encoder', 'first_stage_model.post_quant_conv', 'first_stage_model.quant_conv', 'model.diffusion_model']

如果是 Diffusers 格式的UNET模型,你只会看到 down_blocks.*up_blocks.* 等模块化命名的前缀。

具体前缀和模块对应如下

模块 Checkpoint 格式 Diffusers 格式
UNet model.diffusion_model.* down_blocks.*, up_blocks.*, mid_block.*
VAE first_stage_model.* vae.*
CLIP cond_stage_model.* text_encoder.*
调度器 无单独存储 scheduler.*

总结

  • Checkpoint 格式:单文件打包,命名体现"阶段"概念,下载即用但不透明。
  • Diffusers 格式:模块化目录,命名直观,方便替换与扩展,更适合工程化和社区共享。
  • 命名差异 :Checkpoint 用 first_stage_model 表示 VAE,而 Diffusers 直接用 vae。UNet 在 Checkpoint 中是 model.diffusion_model,在 Diffusers 中则拆分为 down_blocksup_blocksmid_block
相关推荐
YJlio6 天前
OpenClaw v2026.4.5 更新解析:视频/音乐生成、ComfyUI 工作流、多语言控制台、Memory Dreaming 与升级避坑
memory·自动化运维·comfyui·视频生成·版本更新·ai agent·openclaw
love530love12 天前
ComfyUI MediaPipe 终极填坑:解决 incompatible function arguments 报错,基于代理模式的猴子补丁升级版
人工智能·windows·comfyui·mediapipe·猴子补丁·monkey patch·python 3.12
love530love12 天前
Python 3.12 解决 MediaPipe “no attribute ‘solutions‘” 终极方案:基于全版本硬核实测的避坑指南
开发语言·人工智能·windows·python·comfyui·mediapipe·solutions
Rubin智造社15 天前
04月27日AI每日参考:Sora正式关闭,小米机器人开源,DeepSeek再降价
comfyui·github copilot·cohere·sora关闭·aleph alpha·deepseek降价·小米机器人
阿钱真强道16 天前
23 ComfyUI 实战:AnimateDiff + OpenPose Walking 姿态驱动视频生成
openpose·animatediff·controlnet·comfyui·姿态·walking·动作控制
阿钱真强道16 天前
21 ComfyUI 实战:IP-Adapter + ControlNet 实现人物表情编辑,为什么降权重后更容易“笑出来”
aigc·stable-diffusion·controlnet·comfyui·softedge·ip-adapter·人物表情编辑
Rubin智造社17 天前
04月25日AI每日参考:谷歌豪掷400亿押注Anthropic,DeepSeek V4横空出世
大数据·人工智能·物联网·comfyui·deepseek v4·谷歌anthropic投资·meta亚马逊芯片
阿钱真强道17 天前
20 ComfyUI 实战:用 ControlNet 实现人物表情编辑,让人物“笑起来”的工作流解析
aigc·stable-diffusion·controlnet·comfyui·softedge·ip-adapter·人物表情编辑
阿钱真强道18 天前
19 基于 ComfyUI 工作流学习 AnimateDiff:单图生成视频的入门实践与问题分析
aigc·animatediff·stable-diffusion·comfyui·视频生成·图生视频·单图转视频
阿钱真强道19 天前
17 ComfyUI AnimateDiff 新手教程:最小文生视频工作流搭建与原理解析
animatediff·文生视频·stable-diffusion·comfyui·新手入门·工作流教程