今天给大家演示一个「Qwen 固定人物 IP 多场景写真生成」的 ComfyUI 工作流。它可以在保持人物五官特征完全一致的前提下,让同一角色在不同穿搭、不同场景、不同光线、不同姿态中自然亮相。这套工作流结合了 Qwen-VL 的图像解析与 Qwen-Image-Edit 的编辑能力,再配合多段 LoRA 叠加和连贯的提示词生成链路,实现从单张人物照出发,自动生成多套高质量写真级图像。

通过解析节点与生成节点的协同,它能让创作者轻松打造稳定统一的角色 IP 写真集,非常适合短视频封面、博主写真扩展、虚拟偶像内容生产等使用场景。
文章目录
- 工作流介绍
-
- 核心模型
- [Node 节点](#Node 节点)
- 工作流程
- 大模型应用
-
- [AILab_QwenVL 人物特征解析与图像语义抽取](#AILab_QwenVL 人物特征解析与图像语义抽取)
- [RH_LLMAPI_NODE 多场景结构化提示词生成](#RH_LLMAPI_NODE 多场景结构化提示词生成)
- [ProcessString(辅助 LLM 输出清洗) 文本规范化与结构提取](#ProcessString(辅助 LLM 输出清洗) 文本规范化与结构提取)
- 使用方法
- 应用场景
- 开发与应用
工作流介绍
这套工作流围绕「固定人物特征、输出多风格写真图」展开设计,核心思路是先用解析模型提取人物特征,再通过结构化提示词生成链路,让每一张输出图在保持原貌的同时具备鲜明场景变化。核心模型部分由 Qwen-VL、Qwen-Image-Edit、UNet、VAE 和多级 LoRA 构成,负责图像理解、特征编码、编辑生成与风格调控。节点部分涵盖图像加载、文本预处理、模型加载、特征编码、LLM 解析、字符串拆分、采样生成与图像预览等模块,每个节点承担清晰的职责,确保工作流从输入到生成的过程流畅稳定。整体结构简单但功能密度高,是一套专注"多场景一致人物写真生成"的成熟模板。

核心模型
在整个流程中,模型之间彼此协作:Qwen-VL 用于读取原图并生成结构化描述,Qwen-Image-Edit 负责将描述转为可执行的图像编辑条件,UNet 与 Sampler 提供最终的扩散生成能力,VAE 则负责图像与潜空间的往返解码。LoRA 进一步调整风格走向与人物细节,保证一致性与美观度同时兼具。最终生成的画面既写实又统一,适合批量构建人物写真主题集。
| 模型名称 | 说明 |
|---|---|
| Qwen-VL(AILab_QwenVL) | 图像理解与人物特征解析 |
| Qwen-Image-Edit / TextEncodeQwenImageEdit 系列 | 将结构化提示词编码为图像编辑条件 |
| UNet(qwen_image_edit_2509_bf16) | 执行图像编辑扩散生成 |
| VAE(qwen_image_vae) | 图像与 latent 的互相转换 |
| LoRA(多个) | 控制风格、补充细节,如 F2P、006、Lightning 等 |
| ModelSamplingAuraFlow | 调整整体采样风格与模型输出倾向 |
Node 节点
整个工作流的节点承担了从图像输入、提示词生成、字符串处理、模型加载、采样生成到最终图像输出的全部步骤。CR Text 与 CR Text Replace 用于构建带变量的提示词模板,LLMAPI Node 负责调用 Qwen 模型生成结构化提示语句,StringToList 将 LLM 输出拆分为多条编辑指令。随后 ImageEdit 编码节点将这些指令转换为条件输入,再由采样节点完成画面生成。最终通过 PreviewAny 快速预览,通过 SaveImage 导出成品。这种模块化方式让流程既可调控又易扩展。
| 节点名称 | 说明 |
|---|---|
| LoadImage | 加载原始人物照片供模型解析 |
| CR Text / CR Text Replace | 构建提示词模板与替换变量 |
| RH_LLMAPI_NODE | 用 Qwen 生成多场景提示词 |
| ProcessString | 清理输出文本 |
| StringToList | 将 LLM 输出拆分为可执行的编辑指令 |
| TextEncodeQwenImageEdit / PlusAdvance | 将指令编码为条件,用于生成 |
| UNETLoader / LoraLoaderModelOnly | 加载主模型与多个风格 LoRA |
| EmptySD3LatentImage | 创建空 latent 用作生成基础 |
| KSampler | 执行编辑生成步骤 |
| VAEDecode | 最终解码输出图像 |
| PreviewAny / SaveImage | 预览与最终保存 |
工作流程
整个流程从原图进入开始,以人物特征解析为基础,通过提示词生成、指令拆分、模型条件编码、扩散采样,最终输出多套风格统一但场景各异的写真图。工作流的关键在于"人物一致性"与"场景多样性"的平衡,因此在流程中加入了文本清洗、结构化 LLM 生成、字符串分割以及多级 LoRA 调控,使每一条生成指令都能精准落到画面中。整体链路从输入到结果保持顺滑,让创作者在不手动写复杂 prompt 的情况下即可生成大量高质量作品。
| 流程序号 | 流程阶段 | 工作描述 | 使用节点 |
|---|---|---|---|
| 01 | 输入与解析 | 加载原图并由 Qwen-VL 解析人物特征,为后续提示词生成提供内容基础 | LoadImage、AILab_QwenVL |
| 02 | 模板构建 | 使用文本节点准备含变量的提示词模板,替换目标数量、规则说明等 | CR Text、CR Text Replace |
| 03 | 提示词生成 | 调用 LLM,由模板生成多条可用于图像编辑的结构化指令 | RH_LLMAPI_NODE |
| 04 | 文本清洗与拆分 | 清理多余符号、去空行,将生成内容拆分为列表形式供模型逐条处理 | ProcessString、StringToList |
| 05 | 条件编码 | 将每条编辑指令与原图一起编码为图像编辑条件,确保人物一致性与场景差异得到落实 | TextEncodeQwenImageEdit / PlusAdvance |
| 06 | 模型加载 | 加载 UNet 主模型、VAE 模块和多段 LoRA,构成最终生成体系 | UNETLoader、VAELoader、LoraLoaderModelOnly |
| 07 | 采样生成 | 通过空 latent 初始化画布,采样器根据指令生成新的写实场景画面 | EmptySD3LatentImage、KSampler、ModelSamplingAuraFlow |
| 08 | 图像解码与输出 | 解码并展示生成图像,同时保存为最终结果 | VAEDecode、PreviewAny、SaveImage |
大模型应用
AILab_QwenVL 人物特征解析与图像语义抽取
该节点的任务是读取用户上传的原始人物照片,并解析出人物的核心视觉特征,包括五官结构、发型、服饰、背景语义等内容。它只负责"理解图像",不参与生成。其最重要的功能是将图像内容转化为可供后续提示词推理使用的语义基础,确保后续所有编辑提示词都能紧扣人物本体特征。Prompt 在此节点中决定了解析的维度、内容范围、细节密度,是控制最终输出提示词质量的关键因素。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| AILab_QwenVL | Describe this image in detail. 你是专注生成QWEN-IMAGE-EDIT模型提示词的助手。任务:基于用户上传的单张原图,解析人物核心特征后,生成10条可直接调用QWEN-IMAGE-EDIT的结构化提示词,每条需明确"改变人物表情/姿势/拍摄角度(可叠加)",确保与原图人物特征一致。 【完整 Prompt 已读取自工作流文件】 | 解析人物五官、气质、服装与背景,并生成适配编辑模型的结构化语言输出,为后续编辑链路提供稳固语义基础。 |
RH_LLMAPI_NODE 多场景结构化提示词生成
该节点承担"语言生成"职责,是整套工作流的核心驱动。它根据前一节点的图像解析结果与模板 Prompt,通过大模型自动生成多条可用于图像编辑的结构化提示词。这些提示词负责控制最终图像的场景、姿态、表情、光线风格与拍摄角度。Prompt 在此节点决定了场景变化的合理性、描述的完整性、视觉一致性的强弱,是最终画面质量的主控因子。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| RH_LLMAPI_NODE | You are a helpful assistant Hello | 基于输入图像与文本模板生成结构化描述,用于构建后续多条编辑指令,使多场景写真始终保持人物统一性。 |
ProcessString(辅助 LLM 输出清洗) 文本规范化与结构提取
虽然不参与语言生成,但该节点专门处理 LLM 返回的文本,将内容按照指定规则进行"去空行""去噪声""格式化",确保后续模型可以准确接收提示词列表。Prompt 在此节点的作用体现在选项说明,而其职责是严格保证语言输出的格式质量。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| ProcessString | "去空行"选项(节点内部执行,不含长文本 Prompt) | 负责 LLM 文本的格式清理,使生成的所有提示指令保持结构紧凑,便于拆分与执行。 |
使用方法
这套工作流通过"输入人物图 → 图像语义解析 → LLM 自动生成多条编辑提示词 → 条件编码 → 扩散生成"的完整链路自动输出多套保持人物一致性的写真图。用户只需要替换原始人物照片,系统就会自动触发解析节点读取人物特征,随后大模型根据内置模板自动输出多条不同场景、光线与姿势的结构化编辑指令。随后所有指令会被拆分并逐条送入图像编辑模型,由扩散模型和多段 LoRA 共同生成最终画面。整个过程无需手写 Prompt,所有复杂推理均已自动完成。图像输入负责提供人物特征来源,Prompt 负责控制风格表达,编辑指令负责保证画面变化,最终图像则自动呈现为高质量写真。
| 注意点 | 说明 |
|---|---|
| 原图清晰度 | 建议上传清晰、无遮挡的单人照片,以便模型准确提取特征 |
| 人物一致性 | 若原图出现遮挡或大幅光线异常,会降低面部一致性效果 |
| Prompt 不需修改 | 已内置完整的大模型提示词逻辑,保持默认即可得到最佳效果 |
| LoRA 强度 | 不建议随意提高 LoRA 强度,否则会覆盖人物原貌 |
| 尺寸设置 | 生成尺寸越大,面部细节越稳定,同时显存占用更高 |
| 场景数量 | 若需更多结果,可修改提示词中的数字变量并自动扩展生成数量 |
应用场景
这套工作流在内容生产领域拥有非常广的适配性。它能将同一人物形象自然地放入多种场景,从城市街拍到室内情绪照,从职场商务到度假轻写实,都能保持面孔与气质的一致性。这让摄影师、博主、短视频创作者、电商模特内容生产者都能快速扩展素材库,减少拍摄成本同时提升内容数量与质量。对虚拟人运营者而言,它可以轻松生成大量稳定形象的写真,从而支持日常运营、话题输出、广告图设计等用途。
| 应用场景 | 使用目标 | 典型用户 | 展示内容 | 实现效果 |
|---|---|---|---|---|
| 博主写真扩展 | 批量生成同一人物的高质量多场景图 | 小红书博主、短视频 UP 主 | 多风格写真、穿搭日常、情绪照 | 保持角色特征不变,快速扩展内容产量 |
| 虚拟人运营 | 构建稳定统一的虚拟 IP 写真集 | 虚拟偶像团队、AI 模特运营者 | 不同主题写真、活动照、宣传内容 | 持续输出一致形象,提高商业价值 |
| 电商模特生成 | 生成固定模特的多风格展示图 | 商家、视觉设计师 | 商品试穿图、场景化展示 | 降低拍摄成本,提高素材稳定性 |
| 角色设定扩展 | 让固定角色出现在不同叙事场景 | 剧情创作者、设定设计师 | 城市、旅行、职场、生活场景写实图 | 维持人物特征一致性,增强设定丰满度 |
| 封面与标题图制作 | 为视频或文章生成高质封面 | 自媒体、编辑创作者 | 高质封面、主题图 | 快速生成吸睛封面,提高内容点击率 |
开发与应用
更多 AIGC 与 ComfyUI工作流 相关研究学习内容请查阅:
更多内容桌面应用开发和学习文档请查阅:
AIGC工具平台Tauri+Django环境开发,支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用