今天给大家演示的是一个基于 ComfyUI 的多控制条件融合图像生成工作流。该工作流围绕 Z-Image Turbo 体系展开,通过图像输入、自动提示词生成以及多种结构控制预处理的灵活切换,实现从"参考图像理解"到"高质量图像生成"的一体化流程。

结合效果展示可以直观看到,该工作流既能保持原始画面的结构信息,又能在风格和细节上进行较大幅度的重构,非常适合用于人物、场景或概念图的高一致性再创作。
文章目录
- 工作流介绍
-
- 核心模型
- [Node 节点](#Node 节点)
- 工作流程
- 大模型应用
-
- [RH_Captioner 图像语义理解与提示词生成](#RH_Captioner 图像语义理解与提示词生成)
- 使用方法
- 应用场景
- 开发与应用
工作流介绍
这是一个以参考图像驱动 + 多 ControlNet 结构约束 + 自动提示词生成为核心思路的 ComfyUI 工作流。整体设计并非单一路径,而是通过统一的图像输入,派生出深度、姿态、边缘等多种结构信息,再由开关节点进行选择性接入,从而在同一套模型架构下实现不同控制策略的快速切换。工作流同时引入图像自动描述节点,将参考图像内容转化为中文提示词,减少手动写 Prompt 的成本,使生成结果在语义与结构层面都与原图保持高度关联。

核心模型
该工作流的核心模型体系围绕 Z-Image Turbo 架构展开,整体目标是实现高速采样与多结构条件统一控制。在模型组合上,UNet 负责图像扩散与细节生成,CLIP 模型不仅承担文本编码任务,还配合图像描述节点完成"图生文"的语义理解,VAE 则用于潜空间与最终图像之间的稳定编解码。通过额外加载的 Model Patch,将多种 ControlNet 结构信息整合进同一扩散模型中,使姿态、深度、边缘等条件不再是割裂使用,而是可以在同一模型上下文中灵活切换与叠加。这种模型层级的设计,使工作流在保持生成速度的同时,也具备较高的可控性与一致性。
| 模型名称 | 说明 |
|---|---|
| z_image_turbo_bf16.safetensors | 主 UNet 扩散模型,负责核心图像生成与细节表现 |
| qwen_3_4b.safetensors | CLIP 图文模型,用于文本编码与图像语义理解 |
| ae.safetensors | VAE 模型,完成潜空间与图像空间的相互转换 |
| Z-Image-Turbo-Fun-Controlnet-Union-2.0.safetensors | ControlNet Union 模型补丁,用于整合多种结构控制条件 |
Node 节点
在节点设计上,该工作流采用高度模块化的思路,将"图像输入、结构解析、条件选择、生成与输出"拆分为多个职责清晰的节点模块。AIO 系列预处理节点用于从同一参考图像中提取不同类型的结构信息,而 ImpactSwitch 节点则承担控制中枢的角色,使用户可以在不改动整体流程的情况下切换控制方式。与此同时,自动提示词生成节点将参考图像内容转化为可直接用于生成的中文 Prompt,大幅降低人工干预成本。最终通过标准采样、解码与拼接保存节点,形成一条从输入到结果展示完整闭环的工作流。
| 节点名称 | 说明 |
|---|---|
| LoadImage | 加载参考图像,作为整个工作流的起点 |
| LayerUtility: ImageScaleByAspectRatio V2 | 按比例缩放图像,确保输入尺寸符合生成需求 |
| AIO_Preprocessor | 多功能预处理节点,用于生成姿态、深度、边缘等结构图 |
| ImpactSwitch | 控制切换节点,用于选择当前生效的结构条件 |
| RH_Captioner | 图像自动描述节点,将参考图像生成中文提示词 |
| CLIPTextEncode | 将文本提示词编码为条件信息 |
| QwenImageDiffsynthControlnet | 融合 ControlNet 条件的扩散模型节点 |
| KSampler | 采样节点,控制生成步数、算法与随机性 |
| VAEDecode | 将潜空间结果解码为最终图像 |
| ImageConcatMulti | 多图拼接节点,用于对比或展示结果 |
| PreviewImage / SaveImage | 结果预览与保存节点,用于输出最终图像 |
工作流程
整个工作流程围绕"参考图像驱动 → 结构信息提取 → 条件控制生成 → 结果输出"逐步展开,各阶段之间衔接清晰但又保持高度灵活。流程起点由参考图像加载与尺寸自适应处理完成统一输入规范,随后同一张图像被并行送入多个预处理节点,分别生成姿态、深度、边缘等不同类型的结构信息。通过控制切换节点,这些结构条件不需要全部同时参与,而是可以根据创作目标进行选择,从而决定生成结果更偏向构图一致性、空间关系还是轮廓细节。
在语义层面,工作流通过图像自动描述节点将视觉内容转化为中文提示词,再经文本编码后作为正向条件输入扩散模型,使生成结果在语义上紧贴原图内容。最终,融合 ControlNet 条件的扩散模型完成采样,输出潜空间结果并解码为图像,同时支持多图拼接与保存,形成一个从输入到展示完整闭环、可反复调试的生成流程。
| 流程序号 | 流程阶段 | 工作描述 | 使用节点 |
|---|---|---|---|
| 1 | 图像输入 | 加载参考图像并统一尺寸比例 | LoadImage、ImageScaleByAspectRatio |
| 2 | 结构解析 | 从参考图像中提取姿态、深度、边缘等结构信息 | AIO_Preprocessor |
| 3 | 条件选择 | 选择当前生效的结构控制条件 | ImpactSwitch |
| 4 | 语义生成 | 自动生成并编码中文提示词 | RH_Captioner、CLIPTextEncode |
| 5 | 条件融合 | 将结构条件与语义条件注入扩散模型 | QwenImageDiffsynthControlnet |
| 6 | 采样生成 | 控制步数与随机性完成图像生成 | KSampler |
| 7 | 输出展示 | 解码、拼接并保存最终结果 | VAEDecode、ImageConcatMulti、SaveImage |
大模型应用
RH_Captioner 图像语义理解与提示词生成
该节点是整个工作流中承担"大模型语义理解"职责的核心模块,主要任务是对输入的参考图像进行内容分析,并自动生成可直接用于图像生成的中文 Prompt。它并不参与扩散或图像合成过程,而是专注于"看懂图片并把信息说清楚"。通过精心设计的 Prompt,可以明确约束模型关注图像的主体、构图、空间层次、光影氛围和整体风格,从而决定后续生成结果在语义准确度、画面完整性以及艺术表现力上的上限。Prompt 本身起到的是"语义导演"的作用,描述越清晰、要求越具体,后续生成阶段就越容易得到稳定且可控的结果。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| RH_Captioner | 你是一位专业的AI图像生成提示词工程师。请详细描述这张图像主体、前景、中景、背景、构图、视觉引导、光影氛围等细节并创作出具有深度、氛围和艺术感或日常业余设备拍摄的图像提示词。 要求:中文提示词,不用出现对图像水印的描述,不要出现无关的文字和符号,不需要总结,限制在800字以内 | 通过大模型对参考图像进行语义解析,生成高质量中文提示词,为后续图像生成提供语义与风格约束 |
使用方法
该工作流的整体运行逻辑是以"单一参考图像"为核心输入,自动完成尺寸规范、结构信息提取、语义理解和扩散生成。用户只需替换输入图像,工作流便会自动派生出姿态、深度或边缘等结构条件,并通过切换节点选择其中一种作为当前控制信号。同时,图像会被送入大模型节点生成对应的中文 Prompt,用于控制生成内容的语义与风格。最终在 ControlNet 融合与采样完成后,系统会输出生成结果,并与中间结构或原图进行拼接展示,形成清晰的对比效果。整个流程无需手动反复调整节点连接,更适合批量测试和快速迭代。
| 注意点 | 说明 |
|---|---|
| 参考图像质量 | 输入图像的清晰度和构图完整性会直接影响结构提取和提示词生成效果 |
| Prompt 自动生成结果 | 自动生成的 Prompt 可作为基础使用,如需特定风格建议人工微调 |
| 结构条件切换 | 使用 ImpactSwitch 时建议一次只启用一种结构条件以保证稳定性 |
| 分辨率设置 | 输入与生成分辨率差异过大可能导致结构控制失真 |
| 采样参数 | 步数与 denoise 值过高或过低都会影响最终画面一致性 |
应用场景
基于该工作流的结构化设计和高度可控性,其应用范围并不仅限于单一风格或题材,而是覆盖了从内容创作到设计辅助的多个实际场景。通过不同结构控制条件的切换,用户可以在"高度还原原图结构"和"自由风格再创作"之间灵活取舍,非常适合需要在一致性与创意之间平衡的创作需求。同时,自动提示词生成机制也让非专业 Prompt 用户能够快速获得稳定输出,使该工作流在专业创作者与普通用户之间都具备良好的适配性。
| 应用场景 | 使用目标 | 典型用户 | 展示内容 | 实现效果 |
|---|---|---|---|---|
| 人物再创作 | 保持人物结构与姿态一致 | 插画师、摄影师 | 人像对比图 | 人物结构稳定、风格可控 |
| 场景重绘 | 重构空间关系与透视 | 概念设计师 | 场景生成图 | 构图一致但风格变化明显 |
| 图生图创意 | 在原图基础上进行风格扩展 | 内容创作者 | 风格化输出 | 高一致性的创意再设计 |
| Prompt 辅助 | 自动生成高质量中文提示词 | 新手用户 | 文图对照 | 降低提示词门槛 |
| 批量测试 | 快速切换不同控制策略 | 高级用户 | 多结果拼接 | 高效对比不同控制效果 |
开发与应用
更多 AIGC 与 ComfyUI工作流 相关研究学习内容请查阅:
更多内容桌面应用开发和学习文档请查阅:
AIGC工具平台Tauri+Django环境开发,支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用