stable diffusion 极简入门核心概念介绍使用

一、怎么写提示词（prompt）

一般分三部分，按从前到后的顺序：画面质量or风格、画面主体内容、其他细节/背景。

这里的 "1.2" 就是权重，默认权重为1，建议范围 0.7-1.5

由于目前多数模型是在 512*512 图片集中训练出来的。

所以建议：宽和高中有一维大于 700，另一维小于500

图片过大时，处理过程可能会不受控地插入拼接的元素，或是出现重复的多元素。

图片过小时，由于画布太小，没有空间让AI画出更多细节，生成效果会比较粗糙。

如果想生成全景图片时，可以将图片设置大一些。同时，将提示词写得更精细、丰富一些。

迭代步数越大，生图速度越慢。

如果正在测试新的模型或Prompts效果，推荐使用10~15 steps，可以快速获得结果，方便进行调整。

当找到合适的模型和prompts时，可以将steps增加到 20~30 以丰富画面细节。

超过30以后，增益较小，生图时间变长，得不偿失。

数越大，你输入的prompt对图片生成影响越大，控制越强，发散低，容易出现过拟合。

数越小，你输入的prompt对图片生成影响越大，控制度低，发散高，AI发挥性高。

人物提示词，7-15

建筑等大场景，3-7

默认 -1，表示由AI 随机生成，每个生成都不一样。

每次生成的图像，会关联一个种子。

如果生了一张比较好的图片，想在此基础上进行微调，可以将随机种子填成上次生成物用的种子。

再调整其他参数，尝试不同效果。

checkpoint：大型 SD model

LoRA：LoRA模型是小型的 SD model，它对 checkpoint 模型进行微小的更改。通常比 checkpoint 模型小10到100倍。占用磁盘空间更小，对于模型收藏者更友好。建议权重为 0.7~1。

VAE：简单理解是对 checkpoint 微调，加滤镜，不会对输出结果有大影响，一般自动就好。

embedding：是一个小组件，它打包特征描述，不用每次输入很多prompt

相比于LoRA，embedding 的大小只有几十 KB，非常小。还原度比 lora 差一些，但在存储和使用上更加方便。