文本生图的提示词prompt和参数如何设置(基于Animagine XL V3.1)

昨天搞了半天 Animagine XL V3.1,发现市面上很多教程只是授之以鱼,并没有授之以渔的。也是,拿来赚钱不好吗,闲鱼上部署一个 Deepseek 都能要两百块。这里我还是想写篇文章介绍一下,虽不全面,但是尽量告诉你一些资料如何去找,或者让你能自己写出来,不是一味的复制粘贴。

首先 Stable Diffusion WebUI 的界面如下:

接下来我只介绍比较关键的或者能用到的,而且只简单介绍一下,后面会有相关演示:

  • Stable Diffusion checkpoint:这是你选择的模型,位置在stable-diffusion-webui/models/Stable-diffusion
  • Prompt:这个是正向提示词,也就是你想生成什么样的内容。
  • Negative Prompt:这个是反向提示词,也就是你不想生成的内容。
  • Sampling steps:这个是采样率,数值越大,画面细节越多。
  • Width 和 Height:这个是生成画面的宽和高。需要注意,这玩意和画面细节也挂钩,如果小的话生成的细节也少。
  • Batch count:生成的图像批次数。它更高可以降低生成的噪音。
  • Batch size:这个是每次生成几张图,调高需要更大显存,不然速度会慢一些。
  • CFG Scale:这个是遵循 prompt 的严格程度。一般为 7-12,如果你 prompt 写的很细,需要更多的细节,那么可以使用12-16 更高的。当然如果你想让他随机发挥,更低的也行。
  • Seed:这个是"种子",如果你很满意一张图,那么就保留这个种子,然后修改其他参数进行调整,这样变化就不会那么随机。默认的-1就表示随机生成一个种子。

参数演示

我们首先不演示 Prompt 和 Negative Prompt,先来演示一下其他的参数。因为这两个比较复杂。

下面使用的 Prompt 如下:

复制代码
1girl, looking at viewer, wool coat, fur collar, smile, standing on a hillside, snowfall, mountains in the background, masterpiece, best quality, very aesthetic, 1990s style, retro artstyle,

下面使用的 Prompt 如下:

复制代码
lowres, bad anatomy, displeasing, ugly, fewer digit, extra digit, missing fingers, bad hands, blurry, (low quality, worst quality:1.3) 

Width 和 Height

前面提到,宽和高是和画面细节挂钩的,比如 512x512 与 1024x1024 的差别如下(Seed 为 3503979678,Sampling steps 为 20,CFG Scale 为 7):


你可以看到这两张图的细节完全不是一个量级的。

此外,宽高也会影响生成效果。比如 512x1024、1024x1024 与 1024x2048 的差别如下:


需要注意,由于 SD 使用 1024x1024 训练,所以"宽+高"是 1024 的倍数的效果会好一些。一般比例如下:

  • 1:1: 1024x1024, 768x768
  • 3:2: 1152x768
  • 2:3: 768x1152
  • 4:3: 1152x864
  • 3:4: 864x1152
  • 16:9: 1360x768
  • 9:16: 768x1360

Sampling steps

采样率可以提高画面的细节,一般使用 30-40 就足够了。一般宽高有一个不足 1024 的情况下,选择 20 比较合适,1024 往上选择 35 左右。

比如上面同样的参数,Sampling steps 提高为 35,如下:

脸部和背景的细节会更多,颜色的层次一也更丰富,你可以放大看头发部分。

Batch count和Batch size

Batch count:生成的图像批次数。Batch size:这个是每次生成几张图。

需要注意:尽管我们设置了种子,到那时 Batch count 和 Batch count 还是会改变种子,比如下面演示的四张图,种子是 3503979678~3503979681。

Batch count 调整为 4,Batch size 为 1,生成图如下。

Batch count 调整为 1,Batch size 为 2。可以看到他是一起生成两张图的。

生成图如下:

Seed

Seed 是种子,也就是"基础"。上面演示 Batch count 和 Batch size 你也看到了,种子的变化会导致画面内容的变化。

这里说明一下如何查看种子。

首先,生成之后,图片下面的内容中有说明:

此外,输出位置stable-diffusion-webui/output中的文件名中就记录了种子,这样想找到之前的种子也很方便了。

不过还是演示一下生成 4 张图是什么样的:

可以看到差别要比种子只差 1 的差别更大。

Prompt 和 Negative Prompt

Prompt 和 Negative Prompt 是最关键的部分了。

首先我们看一下之前的 Prompt 和 Negative Prompt,了解一下常见的一些 prompt。

Prompt

复制代码
1girl, looking at viewer, wool coat, fur collar,smile, standing on a hillside, snowfall, mountains in the background, masterpiece, best quality, very aesthetic, 1990s style, retro artstyle,

这个参数按顺序是:一个女孩(1girl),看着镜头(looking at viewer),羊毛大衣(wool coat),毛领(fur collar),微笑(smile),站在山坡上(standing on a hillside),下雪中(snowfall),背景是山脉(mountains in the background),杰作(masterpiece),高质量(best quality),非常美观(very aesthetic),1990 年代的风格(1990s style),复古艺术风格(retro artstyle)

可以看到包含人物,姿态,衣服,表情,背景等多种信息。

Negative Prompt

这个 Negative Prompt 是我常用的,很多情况下都很适合。

复制代码
lowres, bad anatomy, displeasing, ugly, fewer digit, extra digit, missing fingers, bad hands, blurry, (low quality, worst quality:1.3) 

这个参数按顺序是:低分辨率(lower),不好的身体结构(bad anatomy,直翻是不好的解刨学),令人不愉快的(displeasing),丑陋的(ugly),低颜色位数(fewer digit),多手指(extra digit),缺少手指(missing fingers),不好的手(bad hands),模糊的(blurry),(低质量,最差质量1.3)((low quality, worst quality:1.3))。

可以看到主要防止是手不行。其他的就是要画质好点。

艺术家风格

Animagine XL V3.1 里不光可以通过上面的1990s style, retro artstyle,指定风格,也可以通过艺术家风格,方法是在 prompt 中加上(艺术家:1.3)

艺术家列表有个神人做了张图,你可以在 Animagine XL v3.1 - Artists' Style Sheet. 看到,其中一张如下:

好了现在弄一下生成图。

复制代码
1girl, looking at viewer, wool coat, fur collar, smile, standing on a hillside, snowfall, mountains in the background, masterpiece, best quality, very aesthetic, (tinnies:1.3)

生成图如下:

再换个艺术家。

复制代码
1girl, looking at viewer, wool coat, fur collar, smile, standing on a hillside, snowfall, mountains in the background, masterpiece, best quality, very aesthetic, (sekina:1.3)

生成如下:

授之以渔:Danbooru tags

Danbooru tags是什么

其实你看我之前的用的,会发现都是一个个短语,并不是句子,但是如何知道用哪些短语呢?

有一个网络数据库叫做 Danbooru tags,它里面记录了包括风格、动作、表情、物品等多种信息,当然也包含一些 NSFW 的内容。

比如说慌张(flustered),它的介绍界面如下,其中还包含一些示例,让你更直观的看到:

如何使用Danbooru tags

下面用表情和背景演示一下:

表情

之前表情用的是微笑(smile),那我们改成慌张(flustered)看看,其实我觉得根据示例这个应该叫娇羞,而不是慌张:


可以看到表情变成娇羞的样子了。

背景

把背景的山改成城市街道(city street in the background),注意把站在山坡删了:

复制代码
1girl, looking at viewer, wool coat, fur collar,smile, snowfall, city street in the background, masterpiece, best quality, very aesthetic, 1990s style, retro artstyle,

生成图如下:

如果没删站在山坡:

更多的 Prompt 使用你可以看看 Danbooru tags 自己尝试一下。

希望能帮到有需要的人~

相关推荐
牛不才18 小时前
ChatPromptTemplate的使用
人工智能·ai·语言模型·chatgpt·prompt·aigc·openai
花千树-01020 小时前
LangChain教程 - Agent -之 REACT_DOCSTORE
python·机器学习·langchain·pdf·prompt·aigc·embedding
天天向上杰1 天前
地基Prompt提示常用方式
人工智能·prompt·提示词
风华浪浪1 天前
提示词工程(Prompt Engineering)
人工智能·prompt
Earth explosion1 天前
Prompt Engineering 最佳实践:打造高效人机交互
prompt·人机交互
非晓为骁1 天前
【Agent】OpenManus-Prompt组件详细分析
ai·架构·prompt·agent·agi·manus·openmanus
陌陌6232 天前
Prompt优化 COT/COD
人工智能·prompt
只恨天高2 天前
最新AI智能体Prompt指令预设词分享+GPTs应用使用
人工智能·prompt·aigc
邪恶的贝利亚3 天前
prompt工程起步
开发语言·python·prompt
AH_HH3 天前
Prompt工程:大模型沟通指南(人工智能到大模型)
人工智能·prompt