文生图与背后的运行逻辑

是什么：在图片生成完毕后，自动进行的后期处理。比如用另一套算法（如Hires.fix）放大并补充细节，或者人脸修复。

通俗理解 ：画作完成后的"精修和装裱"。给草图放大并添加高清细节，或专门优化人脸。

如果我们将"运行后操作"设置成"fixed"，即：固定。那么只要我们的其他参数，比如提示词、随机种啥的都不变，那么无论我们点击多少次生图按钮，始终会生成同一张图片。

3.步数

是什么：画家进行"观察-修改"循环的次数。步数越多，画得越精细，但超过一定值后提升不明显且耗时增加。

通俗理解 ：画家的"修改次数"。10步可能画出草图，50步能画出细节，但1000步可能只是在做无意义的微调。

说白了，就等于我们擦一块很脏的玻璃。

你擦2下，肯定还是很脏；

你擦50下，差不多就很清晰了；

你擦1000下，基本没啥意义，可能会适得其反，因为擦50下的时候差不多就够了，足够清晰了。

因此，步数不建议太多。

4.CFG

是什么：AI在作画时，对你给出的提示词的"服从程度"。值越高，越严格遵循你的提示；值越低，AI自由发挥空间越大。

通俗理解 ：你对画家的"控制力强弱"。CFG=7，画家会认真听你的要求；CFG=1，画家几乎按自己想法乱画；CFG=20，画家会僵化地、过度地执行你的每个词。

因此，我们要让AI听我们的话，按照我们的想法画图，就要设置较高的CFG值。但是CFG值也不能太高，太高了也会适得其反。因此CFG值建议设置成5~8

5.采样器

是什么：画家在每一步"如何修改画作"的数学算法。不同算法在速度、质量和创意上有差异。

通俗理解 ：画家的"绘画技法"。有的技法快但粗糙（如Euler a），有的技法慢但精细稳定（如DPM++ 2M Karras）。

说白了就是进行降噪的方法。

降噪器通常采用dpmpp_2m

6.调度器

是什么：控制在整个绘画过程中，每一步的"修改力度"应该如何变化。

通俗理解 ：画家的"工作节奏"。是先大刀阔斧地改形状，再慢慢雕琢细节（Karras调度），还是均匀地每一步修改一点（线性调度）。

说白了就是进行降噪的力度。

调度器通常采用karras

7.降噪

是什么：从纯噪声一步步清理出清晰图像的过程。降噪强度决定了清理的"力度"。

通俗理解 ：画家"从模糊到清晰"的作画过程。降噪值越高（如0.8），画家初始时看到的"模糊稿"越模糊，需要更多想象力和步骤来画清晰。

举例：下图就是一个不断降噪的过程。

五.文生图逻辑

1.流程图

2.大白话

①用户想要生成"一只戴着帽子的狗"，于是输入提示词"A dog wearing a hat"。（由于只能识别英语，所以要转成英文），并发送到CLIP模型

②CLIP模型将用户提示词，转换成特征向量，然后发送到U-Net模型

③噪声添加：不同的随机种，对应不同的初始画板，生成不同的高斯噪声。然后发送到Latents

④Latents用来设置画布的大小、画出多少个图。

⑤结合了高斯噪声的latents图像（③+④），会在U-Net模型中，与用户的特征向量（②）结合，进行降噪

⑥K采样器的步数，会决定⑤这一套步骤的循环次数，也就是降噪的次数，橙色框就代表采样器和调度器（采样器决定降噪的方法、调度器决定降噪的力度）

⑦经过N次（步数）降噪得出的Latent图像，会发送到VAE

⑧VAE会将Latent图像，转换成我们看到的图像。

六.质量词

质量词，可以让AI生成质量更高的图片。

说白了，就是如何让AI生成更高质量的图片？

1.输入正面条件

注意：要先写质量词汇，再写主体，最后写环境词汇。

因为越靠前的，越重要，权重越大。

还要把中文翻译成英文：

A masterpiece, high quality, and ultimate details. A programmer is sitting in a dark bedroom, programming on a computer, wearing glasses, with black hair and a suit, in an anime style.

2.输入负面条件

就是告诉AI我们不想要啥呗，比如模糊、难看等等。

这些不用我们写，有人整理成一个包了，我们直接按照下面的方法写就行：

3.点击生图，测试效果

以上就是本篇文章的全部内容，喜欢的话可以留个免费的关注呦~~~