Stable Diffusion 笔记：多模型混用操作方式记录

AntBlack2024-03-03 16:44

👈👈👈 欢迎点赞收藏关注哟

首先分享之前的所有文章 >>>> 😜😜😜
文章合集 : 🎁 juejin.cn/post/694164...
Github : 👉 github.com/black-ant
CASE 备份 : 👉 gitee.com/antblack/ca...

一. 前言

上一篇文章里面主要是基础用法，这一篇深入一下模型的混合使用。

二. 模型混用方式

上一篇了解到模型主要分为以下几种：

LoRA ：通常用于人物和概念，体积小且控图效果好，常用于固定角色特征
Checkpoint ：体积较大，用于控制画风
Embedding ：适用于控制画风和人物，相对速度中等
Dreambooth ：可以用于人物，概念和画风，对配置要求较高

而国内资源网站上面比较多的是 LORA 和 CheckPoint 。

现在假设我对一个资源模型不太满意了，那么就需要混用多个模型：

2.1 常规混用：增加 VAE

VAE ：全名 Variational autoenconder，中文叫变分自编码器
效果：一般情况下挂载 VAE 可以起到一个滤镜 + 微调的效果，对颜色和线条产生影响
目的： VAE 的目的并不是为了做滤镜，只是因为可以产生一定滤镜的效果
- 根本作用在于将图像转换到更小的潜在空间，加速计算的过程
- 从潜在空间中更好地解码图像后，可以让细微的细节更加完善
使用：一般情况下下载 VAE 丢在对应文件夹就能使用
- 大部分模型都内置了 VAE ，我们可以使用更高版本的，或者覆盖其中的效果
区分： VAE 分为 EMA 和 MSE 两种
- EMA : 生成更清晰的图像
- MSE : 生成的图像更平滑

不知道在上传的图片有没有压缩，应该能猜的到，中间这个就是没有加 VAE 外挂模型的
右边那个颜色明显更加丰富一些

问题一： VAE 外挂模型应该怎么找？

参考文档 @ zhuanlan.zhihu.com/p/645287190
下载地址：
- HuggingFace 下载：下载路径
- C 站下载：civitai
- 一键启动器

问题二 : VAE 模型放在哪里？

放在 \sd-webui-aki\sd-webui-aki-v4.2\models\VAE 路径下，然后主界面刷新下即可。

问题三： VAE 模型有没有负效果？

通常情况下，部分类型的模型本身就细节很丰富，这类模型是不需要通过 VAE 加持的。

相反，这些模型有时候还需要通过降低鲜艳度的一些 VAE 来削弱这种效果。

2.2 同时使用多个模型

这种方式通常是一个 CHECKPOINT 大模型和多个 Lora 模型进行组合使用。通过 CHECKPOINT 控制大方向，然后通过 Lora 模型进行微调和控制。

使用方式也很简单，当把 Lora 模型放在对应文件夹后，就可以在正向词中使用：

S1 : 把模型加载到 Lora 目录下： \sd-webui-aki\sd-webui-aki-v4.2\models\Lora
S2 : 在生成模型的时候加入 lora 包

👉👉👉下面这图就是最后的效果，不用我说应该都知道哪个是加了多个模型的吧

问题一：怎么提前知道合并的效果？

以 liblib 里面的模型为例，当我们点开一个效果图的时候，有一些里面是会告诉你他使用了那些模型：

2.3 融合模型：多个模型复合使用并且权重排序

使用方式：

具体使用方式可以看这两篇：
- zhuanlan.zhihu.com/p/627448290
- zhuanlan.zhihu.com/p/640622651

这里简单的总结以下内容：

最多可以三个模型相融合
融合比例 ：即 A/B 两个模型在最终模型里面占的比例值（A * (1 - M) + B * M）
融合算法 : 具体的原理没弄懂，使用 加权和 就完事了
模型格式 : 最后输出的模型的格式，一般可以通过文件后缀体现处理
复制配置文件：
嵌入 VAE 模型 ：就像我们上面说的，可以通过 VAE 模型来控制最后的细节
删除匹配键名的表达式的权重 ：可以删除模型里面的某个元素，让后续的模型不会使用该元素

使用过程记录：

融合很快，融合完成后会在右边提升输出的路径
对内存要求高，内存不够会直接报错的，个人本地测试，复杂的就不尝试了
融合后的和正常的模型一样使用就行了

总结

这里就算是彻底入门了， AIGC 未来可能会影响到我们生活的方方面面。

有的时候学习这些不一定是为了赚钱，更大的原因是为了不被时代抛弃。

后面有空了，会尝试进行模型训练。

参考文档

关于Stable Diffusion中的VAE使用 - 知乎 (zhihu.com)

上一篇：第十三篇【传奇开心果系列】Python的文本和语音相互转换库技术点案例示例：Microsoft Azure的Face API开发人脸识别门禁系统经典案例

下一篇：继承（使用及深入、super、重写/复写）--学习JavaEE的day14

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03Qwen3.5 开源全解析：从 0.8B 到 397B，代际升级 + 全场景选型指南 04本地部署 OpenClaw + DeepSeek-R1 完全指南 05OpenClaw macOS 完整安装与本地模型配置教程（实战版）06OpenClaw 飞书机器人不回复消息？3 小时踩坑总结 07得物前端部门，没了 08UV安装并设置国内源 09“wsl --install -d Ubuntu-22.04”下载慢，中国地区离线安装 Ubuntu 22.04 WSL方法（亲测2025年5月6日）10OpenClaw 连接飞书完整指南：插件安装、配置与踩坑记录