Stable Diffusion 与 Stable Diffusion UI
现在网络上有很多人都混淆了Stable Diffusion 与 Stable Diffusion UI的关系,我认为想要了解Stable Diffusion与Stable Diffusion UI的关系,首先需要了解它们各自的定义和功能。
Stable Diffusion是一个基于深度学习的图像生成模型,它通过学习大量的图像数据,能够根据用户输入的文本描述,生成符合要求的对应图片。该模型采用了条件生成对抗网络(Conditional Generative Adversarial Network,CGAN)架构,具有稳定性和生成质量高的优点。
而Stable Diffusion UI则是一个用户界面(WebUI),它为Stable Diffusion模型提供了一个更加简洁易操作的界面。通过这个界面,用户可以方便地调用Stable Diffusion模型,并对其各项参数进行调整,以生成符合自己需求的图片。此外,Stable Diffusion UI还支持多种插件扩展,用户可以根据自己的需求添加相应的插件,以实现更加丰富的功能。
因此,Stable Diffusion与Stable Diffusion UI的关系是相互依存的。Stable Diffusion提供了图像生成的能力,而Stable Diffusion UI则为这些能力提供了一个友好的用户界面,使得用户可以更加方便地使用这些功能。在应用方面,用户可以通过Stable Diffusion UI上传自己的文本描述,并得到符合要求的图片。同时,用户还可以通过调整模型的参数和添加插件来优化生成结果,从而满足自己的需求。
Stable Diffusion 整合包
如今,在国内提到 Stable Diffusion 的大众化就一定离不开一位大佬------秋葉aaaki,他制作的 Stable Diffusion 整合包在国内的推广和应用中发挥了非常重要的作用。他的工作不仅简化了使用流程,还使得更多的人能够接触到并使用这一强大的图像生成工具。
秋叶aaaki的贡献不仅仅在于软件包的制作和优化,他还积极地进行社区建设和交流。他经常在社区中分享自己的经验和技巧,解答用户的问题,提供帮助和建议。他的热情和专业知识感染了很多人,使得更多的人愿意尝试和使用Stable Diffusion。
手动@秋葉aaaki space.bilibili.com/12566101
大家可以去他的视频中找到最新版本的整合包下载链接。
提示词
提示词是Stable Diffusion中最重要的概念之一。它是一种文本输入,用于指导模型生成符合特定描述或条件的图像。
在Stable Diffusion中,提示词分为正向提示词(Positive Prompt)和负向提示词(Negative Prompt)。正向提示词是用来描述和引导模型生成某些特定内容或特性的文本,例如"A cute little bear with brown fur is playing in the forest"。负向提示词则是用来排除或避免某些内容或特性的文本,例如"Excess arms and fingers"。
原生Stable Diffusion只支持英文提示词,用户可以输入风格、背景、人物描述、装饰、动作,甚至性格等等提示词,这些提示词需要使用,
分隔,输入一整段话也是可以的,AI会去自动匹配这段话中的关键词。
通过使用正向提示词和负向提示词,用户可以非常精确地控制模型生成图像的内容、风格和质量。例如,他们可以调整图像的色彩、对比度、亮度等,或者控制生成的物体或场景的类型、细节和比例等。
在Stable Diffusion UI中,用户可以通过输入框输入正向提示词和负向提示词,并选择相应的模型进行生成。同时,UI还提供了一些默认的参数设置和调整选项,用户可以根据需要进行调整和优化,以获得更好的生成结果。
模型介绍
Stable Diffusion中的模型类别包括Checkpoint、LoRA、Textual Inversion 等。
Checkpoint
Checkpoint模型是指训练好的神经网络模型,它包含了模型的所有权重和参数。用户可以通过加载Checkpoint模型,直接使用已经训练好的模型进行图像生成,而无需从头开始训练。这种模型可以节省大量的时间和计算资源,同时也使得模型的使用更加灵活和可定制。
Checkpoint模型又被称为大模型,它是Stable Diffusion模型中最基础和最核心的模型。
LoRA
LoRA模型是一种轻量级的图像生成模型,需要配合Checkpoint模型使用,它相较于传统的GAN模型更加轻便和高效。LoRA模型在Stable Diffusion中得到了广泛的应用,它能够以更低的计算资源和更快的生成速度生成高质量的图像。LORA模型的优点在于其训练稳定性和生成图像的质量之间取得了很好的平衡。
LoRa有很多种类型,有场景LoRa、画风LoRa、姿势LoRa、服装LoRa、汽车LoRa、人物LoRa等,用户根据不同的需求和应用场景,可以针对性地选择适合的LoRA模型类型。例如,场景LoRA可以用于生成不同场景的图像,如城市、自然、建筑等;画风LoRA可以用于生成不同画风的图像,如抽象派、印象派、写实派等;姿势LoRA可以用于生成不同姿势的图像,如站立、坐姿、运动等;服装LoRA可以用于生成不同风格的服装图像,如古装、现代装、礼服等;汽车LoRA可以用于生成不同类型和品牌的汽车图像;人物LoRA可以用于生成不同年龄、性别、外貌等的人物图像。
Textual Inversion
Textual Inversion是一种文本到图像生成的模型,它通过将文本编码为向量表示,并将其与图像编码相结合,生成符合文本描述的图像。与传统的文本到图像生成模型不同,Textual Inversion更加注重文本和图像之间的语义一致性,生成的图像更加准确地反映了文本的描述。
除此以外,还有很多的模型类别,但我们常用的一般就是这三种。
Stable Diffusion UI中模型的实际使用
首先,我们要在界面的左上方选择Checkpoint模型,这一选择决定了图片生成的风格、细节、质量。
然后,我们可以通过在提示词中输入<lora:lora_name:0.5>
来使用LoRA,lora_name为lora模型文件的名称,0.5为lora的权重,数字越大对图片的影响越大。
Textual Inversion模型通常与提示词绑定,具体使用则需要查看对应的模型介绍。
模型的获取
Hugging Face - huggingface.co Civitai - civitai.com