ComfyUI全面掌握-知识点详解——基础示例:文生图与图生图实操(参数+案例)

本文为系列第 13 篇,属于"实操精通(上)"章节的第一个知识点详解。我们将从最基础的文生图开始,一步步搭建工作流、理解每个参数的作用,并通过 3 个完整案例带你掌握文生图与图生图的核心技能。


知识点详解------基础示例:文生图与图生图实操(参数+案例)


目录

  • 一、引言:为什么文生图是 AI 绘图的"第一课"?
  • 二、文生图(Text-to-Image)完整工作流拆解
    • 2.1 工作流全景图
    • 2.2 节点逐个拆解
      • 2.2.1 Load Checkpoint(加载模型)
      • 2.2.2 CLIP Text Encoder(提示词编码)
      • 2.2.3 Empty Latent Image(空潜在图像)
      • 2.2.4 KSampler(核心采样器)
      • 2.2.5 VAE Decode(解码到像素空间)
      • 2.2.6 Preview / Save Image(预览与保存)
  • 三、提示词工程:写好 Prompt 的核心技巧
    • 3.1 正向提示词(Positive Prompt)
    • 3.2 反向提示词(Negative Prompt)
    • 3.3 权重调节与语法修饰
    • 3.4 提示词模板参考
  • 四、核心参数深度解析
    • 4.1 Steps(采样步数)
    • 4.2 CFG(分类器自由引导系数)
    • 4.3 Sampler & Scheduler(采样器与调度器)
    • 4.4 Seed(随机种子)
    • 4.5 参数速查总表与推荐值
  • 五、图生图(Image-to-Image)工作流详解
    • 5.1 工作流结构与节点差异
    • 5.2 Denoise(去噪强度)参数解析
    • 5.3 图生图 vs 文生图:核心区别总结
  • 六、实操案例全解析
    • 6.1 案例一:文生图------生成一张写实风格的人像
    • 6.2 案例二:文生图------生成二次元动漫场景
    • 6.3 案例三:图生图------照片转手绘风格
  • 七、常见问题排查与优化策略
    • 7.1 参数调试建议
    • 7.2 常见问题排查表
  • 八、总结与下一篇预告
  • 官方参考链接

一、引言:为什么文生图是 AI 绘图的"第一课"?

在 AI 绘图的全部能力中,文生图(Text-to-Image,简称 T2I)是最基础、最核心的能力。无论你是用 ControlNet 做精准控制、用图生图做风格转换,还是用 3D 模型辅助生成------最终的图像输出环节,本质上都是在执行一个"文生图"或"图生图"的流程。

文生图的核心逻辑非常简洁:输入文字描述 → AI 模型理解 → 生成对应图像 。但看似简单的流程背后,涉及模型选择、提示词工程、参数调优等多个技术环节。只有真正理解了文生图的每个节点和每个参数的作用,你才能从根本上掌控 AI 绘图的质量。

同时,图生图(Image-to-Image,简称 I2I) 是文生图的自然延伸------它不再从纯噪声开始生成,而是以一张现有图片为基础,在保持原图特征的同时,按照提示词要求进行修改和优化。

本文将从工作流节点拆解开始,逐步深入到提示词技巧、参数调优,最终通过 3 个完整实操案例,带你全面掌握 ComfyUI 的基础生成能力。


二、文生图(Text-to-Image)完整工作流拆解

2.1 工作流全景图

标准的 ComfyUI 文生图工作流由以下 6 个核心节点串联而成:

复制代码
[Load Checkpoint] ──→ MODEL ──→ [KSampler] ──→ LATENT ──→ [VAE Decode] ──→ IMAGE ──→ [Preview/Save Image]
                   │                  ↑
                   ├──→ CLIP ──→ [CLIP Text Encode] ──→ conditioning
                   │                  ↑
                   └──→ VAE     [Empty Latent Image] ──→ latent

完整节点列表:

序号 节点名称 核心作用 关键输出
Load Checkpoint 加载 AI 绘图模型 MODEL、CLIP、VAE
CLIP Text Encoder (Positive) 编码正向提示词 CONDITIONING
CLIP Text Encoder (Negative) 编码反向提示词 CONDITIONING
Empty Latent Image 创建空白"画布"(潜在空间噪声) LATENT
KSampler 执行扩散去噪过程,生成图像 LATENT
VAE Decode 将潜在空间数据解码为像素图像 IMAGE
Preview Image / Save Image 预览并保存生成的图像 (输出)

2.2 节点逐个拆解

2.2.1 Load Checkpoint(加载模型)

这是工作流的起点,负责加载 AI 绘图的核心模型文件(Checkpoint)。

节点位置: 右键 → Add Node → loaders → Load Checkpoint

关键输出:

输出端口 类型 作用
MODEL 扩散模型(UNet) 驱动整个扩散过程的"引擎",负责预测噪声并逐步去噪
CLIP 文本编码器 将人类语言(提示词)转换为模型能理解的语义向量
VAE 变分自编码器 在潜在空间和像素空间之间进行转换

模型选择建议:

  • SD1.5 系列(推荐新手):轻量(~4GB),生态丰富,兼容性强
  • SDXL 系列:质量更高,但显存需求更大(8GB+)
  • SD3 / Flux:最新模型,质量顶级,但对硬件要求最高

实操建议 :新手先用 SD1.5 模型(如 v1-5-pruned-emaonly-fp16.safetensorsDreamshaper 8),跑通流程后再尝试更复杂的模型。

2.2.2 CLIP Text Encoder(提示词编码)

节点位置: 右键 → Add Node → conditioning → CLIP Text Encoder (Prompt)

每个文生图工作流通常需要两个 CLIP Text Encoder:

  • Positive(正向) → 你想要的画面内容
  • Negative(反向) → 你不想要的画面内容

连线注意 :正向输出接入 KSampler 的 positive 输入,反向输出接入 negative 输入。接反了会导致生成结果与你的意图完全相反!

2.2.3 Empty Latent Image(空潜在图像)

节点位置: 右键 → Add Node → latent → Empty Latent Image

这个节点定义了"画布"的尺寸:

参数 作用 推荐值
width 图像宽度 SD1.5: 512, SDXL: 1024
height 图像高度 SD1.5: 512, SDXL: 1024
batch_size 一次生成几张图 1(新手)

重要原则:SD1.5 模型在 512×512 分辨率下表现最佳,SDXL 模型在 1024×1024 下最佳。如果使用非标准尺寸,尽量保持 64 的倍数(如 512、576、640、768、832、896、960、1024)。
为什么不是直接定义像素尺寸? 扩散模型处理的是"潜在空间"而非像素空间。潜在空间中的每个"格子"对应像素空间中 8×8 的区域,所以 512×512 的像素图像在潜在空间中只有 64×64。这就是我们使用 Empty Latent Image 而不是"Empty Pixel Image"的原因------模型在更紧凑的表示空间中进行高效扩散。

2.2.4 KSampler(核心采样器)

节点位置: 右键 → Add Node → sampling → KSampler

这是整个工作流的心脏,所有核心参数都在这里设置。

KSampler 的内部工作流程可以这样理解:

KSampler 接收来自 Load Checkpoint 的 MODEL(扩散引擎)、来自 CLIP Text Encoder 的 positivenegative(条件控制)、以及来自 Empty Latent Image 的 latent(噪声画布),然后按照你设定的参数执行去噪过程。

我们将在第四章中详细拆解每个参数的含义和调节方法。

2.2.5 VAE Decode(解码到像素空间)

节点位置: 右键 → Add Node → latent → VAE Decode

KSampler 输出的 LATENT 是潜在空间数据,人眼无法直接查看。VAE Decode 节点将它"解码"为像素空间的图像。

VAE 的质量直接影响图像色彩和细节 。某些模型自带的 VAE 可能不是最优的,你可以手动加载第三方 VAE(如 vae-ft-mse-840000-ema-pruned.safetensors)来获得更好的色彩表现。

2.2.6 Preview / Save Image(预览与保存)

Preview Image: 在界面中预览生成的图像(右键可保存到本地)

Save Image: 自动将图像保存到 ComfyUI/output/ 目录

保存路径提示 :所有生成图像默认保存在 ComfyUI/output/ 目录下,文件名格式为 ComfyUI_XXXXXX_.png


三、提示词工程:写好 Prompt 的核心技巧

提示词(Prompt)是 AI 绘图的"灵魂"------同样的模型、同样的参数,不同的提示词会产生截然不同的效果。

3.1 正向提示词(Positive Prompt)

正向提示词描述你希望出现在画面中的内容。

基本原则(适用于 SD1.5 模型):

  1. 使用英文:主流 AI 模型以英文训练数据为主,英文提示词效果远好于中文
  2. 用逗号分隔关键词beautiful landscape, sunset, mountains, lake, reflection 而不是完整的句子
  3. 从主体到细节:先描述主体(什么),再描述环境(在哪里),最后描述风格(怎么呈现)
  4. 加入质量关键词 :如 masterpiece, best quality, highly detailed, 4k

提示词结构模板:

复制代码
[主体描述], [环境/背景], [风格/氛围], [光照/色彩], [质量修饰词]

示例:
(ultra realistic portrait:1.3), elegant woman in crimson silk dress, 
full body, soft cinematic lighting, golden hour, 
fujifilm XT4, shallow depth of field, skin texture details, 
masterpiece, best quality, 4k

3.2 反向提示词(Negative Prompt)

反向提示词描述你不希望出现在画面中的内容。它起到"过滤器"的作用,告诉模型避开哪些元素。

通用反向提示词模板:

复制代码
low quality, blurry, distorted, deformed, ugly, bad anatomy, 
bad hands, extra fingers, missing fingers, extra limbs, 
watermark, signature, text, logo, error, cropped, out of frame

反向提示词的重要性:一个好的反向提示词可以显著减少"畸形手"、"多余手指"、"画面模糊"等常见问题。对于 SD1.5 模型来说,写好反向提示词比正向提示词更重要------它决定了生成结果的"下限"。

3.3 权重调节与语法修饰

ComfyUI 支持通过特定的语法来调节提示词中不同部分的权重:

语法 作用 示例
(keyword) 提升权重 1.1 倍 (sunset)
(keyword:1.2) 指定权重倍数(推荐 0.5~1.5) (golden hour:1.3)
(keyword:0.8) 降低权重 (background:0.5)
[keyword] 降低权重至 0.9 倍 [clouds]
keyword1 AND keyword2 同时强调两个关键词 cat AND dog

权重使用建议:

  • 核心元素用 (keyword:1.2)~(keyword:1.4) 强调
  • 次要元素用 (keyword:0.5)~(keyword:0.8) 弱化
  • 不要把所有词都加重------否则等于什么都没加
  • 权重超过 1.5 可能导致画面过度强化某个元素

3.4 提示词模板参考

写实人像风格:

复制代码
正向:(ultra realistic portrait:1.3), (elegant woman:1.2), porcelain skin, 
soft cinematic lighting, (golden hour:1.2), (fujifilm XT4:1.1), 
shallow depth of field, (skin texture details:1.3), natural makeup, 
masterpiece, best quality, 4k

反向:deformed, cartoon, anime, doll, plastic skin, overexposed, 
blurry, extra fingers, bad hands, ugly, low quality

二次元动漫风格:

复制代码
正向:anime style, (1girl:1.1), long flowing pink hair, cherry blossom background,
studio ghibli aesthetic, soft lighting, intricate details, vibrant colors,
masterpiece, best quality, 4k

反向:low quality, blurry, deformed hands, extra fingers, 
realistic, photorealistic, ugly, bad anatomy

风景插画风格:

复制代码
正向:(fantasy landscape:1.2), majestic mountains, crystal clear lake, 
(glowing sunset:1.3), floating islands, waterfalls, lush forest, 
volumetric lighting, (artstation:1.1), trending on artstation, 
masterpiece, highly detailed

反向:blurry, low quality, dull colors, plain, simple, 
ugly, distorted, watermark, text

四、核心参数深度解析

一个文生图工作流的生成质量,很大程度上取决于 KSampler 中的参数设置。下面逐一拆解每个参数。

4.1 Steps(采样步数)

定义:扩散模型从纯噪声到最终图像的迭代去噪步数。

工作原理:每一步,模型都在"预测噪声 → 去除噪声"的循环中前进一小步。步数越多,去噪过程越精细,但在达到某个临界点后,继续增加步数不会带来明显提升。

推荐值与效果:

Steps 范围 效果 适用场景
1~10 生成速度快,但画面粗糙,细节不足 快速预览、草图阶段
20~30 平衡质量与速度的黄金区间 推荐新手使用
30~50 细节丰富,但收益递减 精细出图、最终渲染
50+ 提升微乎其微,仅浪费时间 不推荐

建议:日常使用设 25 步,需要精细质量设 35 步。超过 50 步几乎看不出区别。

4.2 CFG(分类器自由引导系数)

全称:Classifier-Free Guidance Scale

定义:控制生成结果遵循提示词的程度。

工作原理:CFG 值越高,模型越"听话"------更严格地按照提示词生成内容;CFG 值越低,模型越"自由"------更多依赖自身"想象力"。

推荐值与效果:

CFG 范围 效果 适用场景
1~3 画面自由度高,可能偏离提示词 抽象风格、实验性生成
5~7 质量与跟随度的平衡区 多数场景的推荐区间
7~10 紧密跟随提示词,但可能过度锐化 需要精确控制时
10+ 可能产生过饱和、伪影、"塑料感" 不推荐,除非特殊需求

黄金法则:CFG 值和 Steps 值存在联动关系。例如:CFG=7 + Steps=25 是经典组合。如果提高 CFG,可以适当降低 Steps(更强的引导意味着更快收敛)。

4.3 Sampler & Scheduler(采样器与调度器)

Sampler(采样器) 决定了去噪路径的数学方法。不同的采样器在生成速度、质量、风格上有显著差异。

常见采样器对比:

采样器名称 速度 质量 特点
Euler ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 最基础的采样器,稳定通用,适合新手
Euler Ancestral ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ 比 Euler 略丰富但每次结果不同
DPM++ 2M ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 高质量经典选择
DPM++ 2M Karras ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐ 目前最推荐的采样器之一
DPM++ 2S Ancestral ⭐⭐⭐ ⭐⭐⭐⭐ 质量高但速度慢
DDIM ⭐⭐⭐⭐⭐ ⭐⭐⭐ 步数较少时表现好
LCM ⭐⭐⭐⭐⭐ ⭐⭐⭐ 极速采样(1~4步可出图)

Scheduler(调度器) 控制噪声衰减的速率和步长分配:

调度器名称 特点
normal 标准调度,适合大多数采样器
karras 优化噪声调度,产生更清晰的图像(推荐)
exponential 指数衰减,细节更丰富但可能不稳定
sgm_uniform SDXL 的默认调度器

新手推荐组合Sampler = DPM++ 2M Karras + Scheduler = Karras,Steps = 25,这是一套经过无数实践验证的可靠组合。

4.4 Seed(随机种子)

Seed 是控制随机性的"钥匙"。同一个 Seed + 同样的参数 → 总是生成同样的图像。

Seed 的使用场景:

使用方式 作用
固定 Seed 找到满意的结果后,固定 Seed 便于微调参数对比
随机 Seed(设 -1) 每次生成不同的结果
保留 Seed 看到社区分享的好图时,保留 Seed 以便复现

实操技巧 :先用随机 Seed 跑几轮找到大致方向,固定满意的 Seed 再微调参数。切勿同时修改 Seed 和其他参数,否则你无法判断效果变化是由参数调整还是随机变化导致的。

4.5 参数速查总表与推荐值

参数 推荐值 快速说明
Steps 20~30(默认 25) 步数越多细节越丰富,20~30 为最佳平衡点
CFG 5~8(默认 7) 数值越高越贴近提示词,7 为通用推荐值
Sampler DPM++ 2M Karras 目前最推荐的采样器,稳定且高质量
Scheduler Karras 配合 DPM++ 2M 使用效果最佳
Seed -1(随机) 找到好图后固定该 Seed 值
Denoise 1.0(文生图) 仅在图生图中调节
Width × Height SD1.5: 512×512, SDXL: 1024×1024 保持 64 的倍数

极速出图参考:如果只需要快速预览效果,用 Euler + Steps=15 + CFG=5,可在 1~2 秒内出图(视显卡性能而定)。


五、图生图(Image-to-Image)工作流详解

5.1 工作流结构与节点差异

图生图与文生图的核心区别在于:图生图不是从纯噪声开始,而是从一张现有的图片开始

图生图工作流:

复制代码
[Load Checkpoint] ──→ MODEL ──→ [KSampler] ──→ [VAE Decode] ──→ [Preview/Save]
                   │                  ↑
                   ├──→ CLIP ──→ [CLIP Text Encode] (正向/反向)
                   │                  
                   └──→ VAE     [Load Image] ──→ [VAE Encode] ──→ latent

与文生图的主要差异节点:

节点 文生图 图生图
初始图像 Empty Latent Image(纯噪声) Load Image + VAE Encode(将原图编码到潜在空间)
Denoise 无(固定为 1.0) 可调节(0~1),控制对原图的改变程度

Load Image 节点:

  • 位置:右键 → Add Node → image → Load Image
  • 功能:上传一张本地图片作为生成的基础
  • 输出IMAGE(像素图像)+ MASK(遮罩,用于局部重绘)

VAE Encode 节点:

  • 位置:右键 → Add Node → latent → VAE Encode
  • 功能:将 Load Image 的像素图像编码为潜在空间数据,输入到 KSampler

5.2 Denoise(去噪强度)参数解析

Denoise 是图生图中最重要的参数,决定了生成结果对原图的保留程度。

参数范围:0.0 ~ 1.0

Denoise 值 效果 适用场景
0.0 完全保留原图,不做任何改变 无意义,等于不生成
0.1~0.3 轻微改动,调整色彩/光照 色彩校正、微调细节
0.3~0.5 适度修改,保持构图的风格迁移 风格转换的推荐区间
0.5~0.7 较大改动,保留大致构图 显著改变画风
0.7~0.9 强烈改动,仅保留模糊轮廓 基于原图的全新创作
1.0 完全忽略原图,等同于文生图 同文生图

工作原理:KSampler 在接收 Latent 后,首先根据 Denoise 值确定要添加的噪声量:

  • Denoise=0.4 → 添加少量噪声(60% 保留原图特征,40% 重新生成)
  • Denoise=0.8 → 添加大量噪声(20% 保留原图特征,80% 重新生成)

关键理解:Denoise 不是"透明度"或"混合度",而是"在原图基础上重新生成的比例"。Denoise=0.5 意味着模型在一半原图、一半噪声的基础上开始去噪过程。

5.3 图生图 vs 文生图:核心区别总结

对比维度 文生图 图生图
起点 纯随机噪声 现有图片编码后的潜在空间
核心节点 Empty Latent Image Load Image + VAE Encode
Denoise 始终 1.0(不可调) 0~1 可调
输出控制 完全由提示词决定 提示词 + 原图特征共同决定
适用场景 从零创作 修图、改风格、基于原图创作
工作流复杂度 略高(多 2 个节点)

六、实操案例全解析

6.1 案例一:文生图------生成一张写实风格的人像

目标:使用文生图工作流,生成一张高质量的写实人像照片。

Step 1:搭建工作流

按第二章所述,搭建标准文生图工作流:

  1. 添加 Load Checkpoint → 选择 Dreamshaper 8(写实风格表现优秀)
  2. 添加 2 个 CLIP Text Encoder → 分别设为正向和反向
  3. 添加 Empty Latent Image → 设为 512×512
  4. 添加 KSampler → 连接所有输入
  5. 添加 VAE Decode → 连接 KSampler 输出
  6. 添加 Preview Image → 连接 VAE Decode 输出

Step 2:编写提示词

复制代码
正向提示词:
(ultra realistic portrait:1.3), young woman with freckles, 
(soft natural lighting:1.2), shallow depth of field, 
(Canon EOS R5:1.1), 85mm lens, (skin texture:1.2), 
warm tone, natural makeup, messy bun hairstyle, 
masterpiece, best quality, highly detailed, 4k

反向提示词:
(deformed:1.3), blurry, bad anatomy, bad hands, 
extra fingers, missing fingers, ugly, 
cartoon, anime, 3d render, plastic skin, 
oversaturated, watermark, text

Step 3:设置参数

参数 选择理由
Steps 30 人像需要精细细节
CFG 7 标准值,平衡提示词跟随度和自然度
Sampler DPM++ 2M Karras 高质量经典组合
Seed -1(首次随机) 先跑几轮找感觉

Step 4:生成与迭代

  1. 点击 Queue Prompt,等待生成完成
  2. 查看结果 → 如果满意,固定 Seed 值
  3. 如果不满意,分析原因:
    • 面部不够真实 → 降低 CFG 到 6
    • 皮肤太光滑 → 提高 (skin texture:1.3)
    • 构图不理想 → 调整正向提示词描述

Step 5:参数微调

找到大致方向后,固定 Seed,尝试微调参数:

复制代码
实验记录:
Seed 固定为 12345
- CFG=7: 面部自然,肤质真实
- CFG=9: 对比度增强,略显锐化
- CFG=5: 画面柔和,但细节略模糊

最佳组合:Steps=30, CFG=7, Sampler=DPM++ 2M Karras

6.2 案例二:文生图------生成二次元动漫场景

目标:使用文生图工作流,生成一张吉卜力风格的动漫场景图。

Step 1:选择模型

将 Load Checkpoint 切换为 Anything V5(二次元风格最常用的 SD1.5 模型)。

Step 2:编写提示词

复制代码
正向提示词:
(studio ghibli style:1.3), (anime landscape:1.2), 
enchanted forest, magical glowing creatures, 
mossy stone path, dappled sunlight through trees, 
vibrant green foliage, (soft watercolor rendering:1.2),
whimsical atmosphere, intricate details, 
masterpiece, best quality

反向提示词:
(low quality:1.2), blurry, photorealistic, realistic, 
dark, horror, scary, ugly, deformed, 
modern buildings, cars, technology

Step 3:设置参数

参数 说明
Steps 25 动漫风格不需要太多细节步数
CFG 6 动漫风格可略低,留更多创作空间
Sampler Euler Ancestral 动漫风格推荐,色彩更丰富
Width × Height 768×512 横向构图,适合风景

Step 4:生成技巧

  • 尝试使用不同的 Seed 生成多张,挑选最符合直觉的一张
  • 如果风格不够明显,可以增加 (studio ghibli style:1.5)
  • 如果画面太乱,提高反向提示词中的过滤词权重

6.3 案例三:图生图------照片转手绘风格

目标:上传一张照片,将其转换为手绘插画风格。

Step 1:准备原图

选择一张清晰的人物或风景照片(建议 512×512 以上)。

Step 2:搭建图生图工作流

  1. 使用 Load Image 节点上传原图
  2. 添加 VAE Encode 节点,将图像编码到潜在空间
  3. 其余节点与文生图相同
  4. 将 VAE Encode 的 LATENT 输出连接到 KSampler 的 latent 输入(关键区别

Step 3:编写提示词

复制代码
正向提示词:
(hand-drawn illustration:1.3), (watercolor style:1.2), 
soft brush strokes, artistic rendering, 
warm color palette, ethereal atmosphere, 
masterpiece, best quality

反向提示词:
photorealistic, photograph, realistic, 
3d render, sharp edges, oversaturated, 
blurry, low quality, ugly

Step 4:设置参数

参数 说明
Denoise 0.5 最关键参数------保留原图构图,显著改变画风
Steps 25 标准步数
CFG 7 标准值
Sampler DPM++ 2M Karras 推荐

Step 5:Denoise 值实验

固定其他参数,对比不同 Denoise 值的效果:

Denoise 效果描述
0.3 基本保留原图,仅有轻微的手绘感
0.5 构图保留,风格明显转变(推荐)
0.7 构图大幅改变,接近全新创作
0.8+ 几乎完全脱离原图

实操建议 :Denoise 从 0.4 开始尝试,逐步调高直到风格变化达到预期。记住:Denoise 越高,结果越不可控。


七、常见问题排查与优化策略

7.1 参数调试建议

控制变量法(非常重要!):

  • ✅ 一次只改变一个参数
  • ✅ 固定 Seed 再对比
  • ✅ 记录每次的参数和效果
  • ❌ 不要同时修改多个参数

调试顺序推荐:

  1. 先调整 Steps(找到质量基准)
  2. 再调 CFG(平衡提示词跟随度)
  3. 尝试不同 Sampler(找到风格偏好)
  4. 最后调 Denoise(仅图生图)

7.2 常见问题排查表

问题 可能原因 解决方法
图像全黑/全灰 模型路径错误 / VAE 缺失 检查模型是否正确加载;尝试单独加载 VAE
图像模糊 Steps 太少 / 分辨率太低 将 Steps 从 15 提高到 25;检查宽度高度设置
提示词不生效 CFG 太低 / 权重太低 提高 CFG 到 7~9;用 (keyword:1.2) 加重核心词
手部畸形 SD1.5 常见问题 反向提示词加 bad hands, extra fingers, deformed hands:1.4
人物面容崩坏 模型问题 / 提示词不匹配 切换到写实模型(如 Dreamshaper 8);精确描述五官
图生图变化太大 Denoise 太高 降低 Denoise 到 0.3~0.5
图生图没有变化 Denoise 太低 提高 Denoise 到 0.5~0.7
色彩过饱和 CFG 过高 降低 CFG 到 5~7
生成速度极慢 分辨率太高 / 显存不足 降低分辨率;使用 --lowvram 模式;使用 fp16 模型
显存不足(OOM) 模型太大/分辨率太高 使用 SD1.5 而非 SDXL;降低分辨率为 512×512

八、总结与下一篇预告

本文核心要点回顾

通过本文的学习,你已经掌握了:

  1. 文生图工作流------6 大核心节点的功能与连接方式
  2. 提示词工程------正向/反向提示词写法、权重调节语法、模板参考
  3. 核心参数深度解析------Steps、CFG、Sampler、Scheduler、Seed 的含义与调节方法
  4. 图生图工作流------Load Image + VAE Encode 的使用、Denoise 参数的核心作用
  5. 3 个实操案例------写实人像、二次元场景、照片转手绘
  6. 参数调试策略------控制变量法、常见问题排查

参数速记口诀

复制代码
步骤 25 是黄金,CFG 7 最稳定
采样器用 DPM++,Karras 调度保高清
Seed -1 先探索,找到好的就固定
图生图调 Denoise,0.5 左右是基准
正向提示词描主体,反向提示词来排雷
一次只改一个数,固定 Seed 好对比

下一篇预告

下一篇(博客 14)我们将学习 ControlNet------精准控制绘图效果的终极武器。你将掌握如何用姿态图控制人物姿势、用边缘图保持构图、用深度图控制空间层次,让 AI 绘图从"碰运气"变成"精准控制"。

准备好进入 ControlNet 的世界了吗?在那里,你的想象力才是唯一的限制。


官方参考链接

  1. ComfyUI 文生图工作流 --- 官方文生图教程
  2. ComfyUI 官方文档首页 --- 文档入口
  3. ComfyUI 首次生成 --- 官方首次生成指南
  4. ComfyUI 内置节点文档 --- 所有内置节点详细说明
  5. Stable Diffusion 1.5 模型 --- 官方推荐 SD1.5 模型
  6. Dreamshaper 8 模型 --- 写实风格模型
  7. Anything V5 模型 --- 二次元风格模型
相关推荐
T_Wang_Lab2 小时前
可计算元认知文本分析:癌症经济学语义基线的构建与边界信号检测
人工智能·知识图谱·数字人文·deepseek百万token
belldeep2 小时前
CSR座席模块 如何结合AI 大模型应用?
人工智能·ai·大模型·csr坐席
05候补工程师2 小时前
【硬核干货】用“算法”思维袭英语新题型:集合逆清晰除与降维打击解题法
经验分享·笔记·考研·算法·学习方法
后端小肥肠3 小时前
漫画工坊续篇 | Coze+Skill 实现老纪漫画完整制作全流程
人工智能·aigc·agent
收放扳机3 小时前
PCB收放板取放方式对比:吸盘与夹板边的技术差异与选型分析
人工智能·科技·自动化·制造·pcb工艺
小黄人软件3 小时前
写一个最小AI Agent智能体真实能用的示例,分别调用mcp和skill
人工智能
Freak嵌入式3 小时前
WIZnet-EVB-Pico2开始,用MicroPython玩转以太网开发
arm开发·人工智能·python·嵌入式硬件·机器人·嵌入式·micropython
刀法如飞3 小时前
Palantir Ontology 数据结构分析,与ER/OOP/DDD有什么区别?
人工智能·算法·架构
白藏y3 小时前
【数据结构】简单选择排序
数据结构·算法·排序算法