stable diffusion实践操作-writing

文章目录

前言


Stable Diffusion的定义:

Stable Diffusion(简称SD)是一种人工智能生成图像的软件。通过输入文字描述,SD能够生成对应的图片,无需像以往那样需要手工"绘制"或"拍摄"照片。

一、优点

1.1、免费开源

Midjourney 需要开魔法使用,免费额度用完之后付费才能继续,最低 10 美元/月。而 SD 在 B 站上有大神整理好的整合安装包,不用魔法,免费下载一键安装。 安装到本地的 SD 随开随用,生成的图片只有自己能看到,保密性更强。

1.2、拥有强大的外接模型

由于开源属性,SD 有很多免费高质量的外接预训练模型(fine-tune)和插件,比如可以提取物体轮廓、人体姿势骨架、画面深度信息、进行语义分割的插件 Controlnet,使用它可以让我们在绘画过程中精准控制人物的动作姿势、手势和画面构图等细节;插件 Mov2Mov 可以将真人视频进行风格化转换;SD 还拥有 Inpainting 和 Outpainting 功能,可以对图像进行智能局部修改和外延,这些都是目前 Midjourney 无法做到的。

二、组成要素

组要有四大部分组成,分别是:

2.1 底模

大模型,决定了图片的基础风格,比如真实照片风格(chilloutmix模型),二次元漫画风格(Anything模型)

2.2 风格

Lora模型,决定了图片的细节风格,比如人物脸型(koreanDollLikeness),衣服款式(Beautiful_Dress)

2.3 提示词

描述画面的具体内容,正面提示词,负面提示词。

2.4 参数配置

迭代步数,采样模式等。

三、生图原理

stable diffusion实践操作-SD原理

四、下载链接

主要内容有:

1.前置包(无需使用,新手可直接跳过)

2.安装包

3.精选大模型

4.精选embedding

5.精选lora

6.精选 hypernetwork

7.精选姿势包

8.Contronet模型包

9.Vae

10.插件包

11.提示词合集(新加)

12.附录1处理器、GPU购买指南

链接:https://pan.quark.cn/s/218e0e20a915

非常感谢轩轩,大家可以看他的入门教程:入口

实践正文


一、安装

1.1 电脑硬件配置查看

链接入口:stable diffusion实践操作-电脑硬件查看

1.2 安装本地版本的stable diffusion

链接入口:stable diffusion实践操作-安装

1.3 SD使用教程

链接入口:stable diffusion实践操作-webUI教程

二、模型介绍与下载

2.1大模型

底模/大模型 是SD能够绘图的基础模型,控制图片整体风格,比如二次元anything,真实写照等。

安装完SD软件后,必须搭配基础模型才能使用。不同的基础模型,其画风和擅长的领域会有侧重。常见的模式,后缀ckpt,safetensors,大小在2-8G之间。

链接入口:stable diffusion实践操作-大模型介绍

下载后存放地址:sd-webui-aki-v4.2\models\Stable-diffusion

2.2 Lora模型

Lora是微调模型,某品牌汽车(特斯拉),人物姿势(剪刀手),可以固定我们照片的特征:人物特征、动作特征、还有照片风格。

如果把基础模型比喻作一座房子的地基,那么Lora模型就好比在这个地基上盖起来的房子。我们通常也称为微调模型,用于满足一种特定的风格,或指定的人物特征属性。在数据相似度非常高的情形下,使用微调模型,可以节省大量的训练时间和训练资源,就可以产出我们需要的结果.,常见的后缀是ckpt,safetensors,pt,大小100M左右。

Lora是可以叠加使用的,叠加后会非常变态的。

Lora之间一样用英文逗号隔开,每个Lora后面都有数字,这是用来调整这个Lora的权重的。

正常情况下是1,我们一般只会去降低权重,因为增加权重照片可能就会变得奇奇怪怪,每个Lora设置的权重不一样,出来的照片就会不一样,想要生成一个好看的小姐姐,就要多去尝试不同的权重组合,并且lora有提示词,如下:

bash 复制代码
<lora:Beautiful_Dress_1.0:0.6>,dress

链接入口:stable diffusion实践操作-常见lora模型介绍

下载后存放地址:sd-webui-aki-v4.2\models\Lora

2.3 VAE美化模型

VAE,全名Variational autoenconder,中文叫变分自编码器。作用是:滤镜+微调 ,名字中带有vae,后缀ckpt,pt

有的大模型是会自带VAE的,比如我们常用的Chilloutmix。如果再加VAE则可能画面效果会适得其反 。

链接入口:stable diffusion实践操作-VAE

下载后存放地址:sd-webui-aki-v4.2\models\VAE

2.4 Hypernetworks超网络模型

链接入口:stable diffusion实践操作-hypernetworks

下载后存放地址:sd-webui-aki-v4.2\models\hypernetworks

2.5 LyCORIS

此类模型也可以归为Lora模型,也是属于微调模型的一种。一般文件大小在340M左右。不同的是训练方式与常见的lora不同,但效果似乎会更好不少。

链接入口:入口

下载后存放地址:sd-webui-aki-v4.2\models\LyCORIS

2.6 embedding(TEXTUAL INVERSION)

可以理解为提示词的集合,可以省略大量的提示词。主要是负向提示词,后缀safetensors,大小几十kb

链接入口:stable diffusion实践操作-embedding(TEXTUAL INVERSION)

下载后存放地址:sd-webui-aki-v4.2\embeddings

2.7 ControlNet模型下载

正常来说,秋叶安装包就有一些模型的,其余后期补充。

介绍链接:https://zhuanlan.zhihu.com/p/619721909

链接入口:stable diffusion实践操作-Controlnet

下载后存放地址:sd-webui-aki-v4.2\models\ControlNet

三、生图操作

4.1 基础- 提示词文生图

链接入口:stable diffusion实践操作-文生图

4.2 基础-png图片成文生图

链接入口:stable diffusion实践操作-图片生文字到图片

4.3 基础-图生图

链接入口:stable diffusion实践操作-图生图

4.4 进阶-文生图-组合

将需求进行拆分,熟练运用组合,比如:

  1. KoreranDollLikeness + Beautiful_dress + Chilloutmix
  2. MIX4 + 20D 黑丝 + Chilloutmix

链接入口: 进阶-文生图-组合(KoreranDollLikeness + Beautiful_dress + CHilloutmix)

四、参数介绍

4.1 提示词

提示词是SD中非常重要,你生成的图片质量,基本就取决于提示词的好坏,提示词分为正向提示词和反向提示词

模板如下:画质 + 主体 + 主体细节 + 人物服装 + 其他(背景、天气、构图等)

bash 复制代码
Best quality,masterpiece,ultra high res,nu no humans,
 (long:1.2),<lora:long-000020:0.8>, no humans, cloud, 
 architecture, east asian architecture, red eyes, horns, 
 open mouth, sky, fangs, eastern dragon, cloudy sky, 
 teeth, flying, fire, bird, wings.

链接入口:stable diffusion实践操作-提示词

5.2 CLIP 终止层数

链接入口:CLIP

5.3 采样方法和迭代步数

链接入口:采样方法

5.4 宽高设置以及高清修复

链接入口:stable diffusion实践操作-宽高设置以及高清修复

5.5 随机数种子(seed)

当使用相同的大模型、关键词、Lora模型和其他参数时,生成的图像可能与他人不同,其中一个影响因素是随机数种子(Seed)。

随机数种子控制了图像生成的底层形状,类似于画画时最开始的线稿。它决定了图像的基础轮廓,包括人物的外形轮廓、姿势和站位等。

当随机数为"-1"的时候,SD就会随机给你的照片生成一个种子,这个种子就理解成不一样的线稿就可以,你可以在生成的图像下方查看英文字符串中的seed值,以了解当前生成图像所使用的随机数种子。

链接入口:stable diffusion实践操作-随机种子seed

面部修复

这两个功能没有太多讲解,直接使用即可。

注意点如下:

  • 面部修复适用于生成真人照片。
  • 高分辨率修复需要较好的电脑配置,配置较低的电脑不建议使用,否则可能无法生成照片

平铺图(Tiling)

提示词引导系数(CFG Scale)

ControlNet v1.1.224

ControlNet 说明

ControlNet 安装

控制类型

Canny(硬边缘)
Depth(深度)

预处理器

模型

控制权重

引导介入机制

相关推荐
云畅新视界11 分钟前
从 CODING 停服到极狐 GitLab “接棒”,软件研发工具市场风云再起
人工智能·gitlab
一ge科研小菜鸡16 分钟前
人工智能驱动下的可再生能源气象预测:构建绿色能源时代的新大脑
人工智能·能源
高压锅_122027 分钟前
Cursor+Coze+微信小程序实战: AI春联生成器
人工智能·微信小程序·notepad++
XiaoQiong.Zhang28 分钟前
数据分析框架和方法
人工智能
TY-202537 分钟前
三、神经网络——网络优化方法
人工智能·深度学习·神经网络
Jamence44 分钟前
多模态大语言模型arxiv论文略读(156)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记
哔哩哔哩技术1 小时前
IndexTTS2:用极致表现力颠覆听觉体验
人工智能
GengMS_DEV1 小时前
使用开源kkfileview实现电子档案文件的万能预览/水印等功能
人工智能
纪伊路上盛名在1 小时前
(鱼书)深度学习入门1:python入门
人工智能·python·深度学习