今天给大家演示一个基于 Wan2.2 与 SmoothMix 的 ComfyUI 文生视频自动扩写工作流。这个工作流围绕单张图片展开,通过多阶段文本扩写、图像理解、动态脚本生成和视频生成模型协同,让输入画面自动延展成完整的 5 秒镜头脚本,再由 Wan 系列 T2V 模型生成稳定、连贯、细节丰富的视频。
整体流程涵盖模型加载、文本编码、参数计算、采样、VAE 解码和视频导出,帮助创作者从一张图快速得到专业级的短视频输出。
文章目录
- 工作流介绍
-
- 核心模型
- [Node 节点](#Node 节点)
- 工作流程
- 大模型应用
-
- [Qwen3_VQA 图像语义理解与文本补全](#Qwen3_VQA 图像语义理解与文本补全)
- [CR Prompt Text ① 视频导演规则注入](#CR Prompt Text ① 视频导演规则注入)
- [CR Prompt Text ② 主体行为与场景逻辑生成](#CR Prompt Text ② 主体行为与场景逻辑生成)
- [CR Prompt Text ③ 负面提示规则构建](#CR Prompt Text ③ 负面提示规则构建)
- 使用方法
- 应用场景
- 开发与应用
工作流介绍
这个工作流以"图像驱动的视频自动扩写"为核心目标。通过 Qwen3-VL 图像理解节点读取参考图,再结合三段 CR Prompt 文案指令,将图像信息、用户设定和视频导演规则拼接为完整的 5 秒分镜脚本。CLIP 文本编码节点将正负提示词处理为可用于 Wan ImageToVideo 模型的条件输入。视频时长与帧数通过 SimpleMath+ 与 ImpactInt 节点自动计算,确保生成长度与帧率精确一致。随后使用 Wan2.2 和 SmoothMix Wan 模型作为高噪与低噪双路径输入,由 WanMoeKSampler 混合采样,得到动态一致的潜空间序列,再经 VAE 解码和最终的视频导出节点生成 H264 视频。整个结构覆盖从素材输入、文本处理、参数配置、模型推理到视频导出的全链路。

核心模型
该工作流加载了多组模型协同完成从文本理解到视频生成的完整流程。Wan2.2 模型与 SmoothMix 混合模型负责核心的 T2V 结构噪声与细节保持,GGUF 低噪路径与 LoRA 进一步提升精细度。CLIP 和 VAE 则分别承担文本编码和潜空间解码,让脚本描述能被准确转换为运动影像。最终组合实现了画面稳定、动作连贯、时间一致的视频生成效果。
| 模型名称 | 说明 |
|---|---|
| smoothMixWan22I2VT2V_t2vHigh.safetensors | 文生视频高噪声模型,用于主路径生成 |
| Wan2.2-T2V-A14B-LowNoise-Q8_0.gguf | Wan 低噪声 GGUF 模型,负责细节稳定 |
| lightx2v_T2V_14B_lora | 为 T2V 模型增加额外精细度与局部结构优化 |
| umt5_xxl_fp16.safetensors | CLIP 文本编码模型 |
| wan_2.1_vae.safetensors | VAE 解码模型,用于潜空间转图像 |
Node 节点
整个工作流通过多类节点分工协作,包括图像载入、文本扩写、模型加载、参数计算、潜空间采样、图像解码与视频导出。文本逻辑由三段 CR Prompt Text 和 TextConcat 负责整合,图像理解由 Qwen3-VL 完成,采样核心由 WanMoeKSampler 执行。ImpactInt 与 SimpleMath+ 自动化控制视频参数。最终的视频输出由 VHS VideoCombine 导出为 H264 MP4。
| 节点名称 | 说明 |
|---|---|
| LoadImage | 加载输入图像作为参考源 |
| CR Prompt Text | 三段式文本扩写与导演化处理 |
| Qwen3_VQA | 图像理解与文本补全 |
| TextConcat | 合并多段脚本为完整镜头描述 |
| CLIPTextEncode | 正负提示词编码成模型可读格式 |
| ImpactInt | 设置宽、高、时长等关键参数 |
| SimpleMath+ | 自动计算视频帧数(时长*16+1) |
| UNETLoader / UnetLoaderGGUF | 加载 Wan 系列 T2V 模型结构 |
| LoraLoaderModelOnly | 加载 LoRA 模型补充细节能力 |
| WanMoeKSampler | 核心混合采样器,控制噪声、CFG、步数等 |
| VAEDecode | 将潜空间序列解码为图像帧 |
| VHS VideoCombine | 合成并导出 mp4 视频 |
工作流程
这一工作流将文本扩写、图像理解、条件编码、模型采样与视频导出串联为一条连续的生产线。前半段处理逻辑,通过 Qwen3-VL 对图像进行语义分析,再由三段 CR Prompt Text 生成导演级脚本,TextConcat 将多段内容组合成最终分镜。随后 CLIPTextEncode 把正负提示词编码为条件向量。中段由 ImpactInt 和 SimpleMath+ 自动计算宽高与帧数,让视频时长、分辨率与帧率保持一致。接着模型加载区通过双模型结构(高噪与低噪)以及 LoRA 注入增强稳定与细节,再交给 WanMoeKSampler 根据脚本运动内容生成潜空间视频序列。后段由 VAE 解码为实际帧图像,最终流入 VHS VideoCombine 输出标准 H264 视频。整个链路在保持结构清晰的同时确保每个环节都能围绕输入图像的语义与脚本进行一致的内容生成。
| 流程序号 | 流程阶段 | 工作描述 | 使用节点 |
|---|---|---|---|
| 1 | 图像输入 | 加载参考图,作为脚本扩写与视频生成的视觉基础 | LoadImage |
| 2 | 文本扩写与图像理解 | 通过 Qwen3-VL 分析图像,再由三段 CR Prompt 指令生成导演级脚本,最后拼接为 5 秒完整分镜 | Qwen3_VQA、CR Prompt Text、TextConcat |
| 3 | 条件编码 | 将正负提示词编码为可用于模型采样的 CONDITIONING | CLIPTextEncode |
| 4 | 参数设定 | 自动化计算宽、高、视频时长与帧数,确保生成视频的实际规格 | ImpactInt、SimpleMath+ |
| 5 | 模型加载 | 加载 Wan2.2、高噪模型、低噪 GGUF 模型及 LoRA,形成双路径结构 | UNETLoader、UnetLoaderGGUF、LoraLoaderModelOnly |
| 6 | 模型强化 | 通过 BlockSwap 与 TorchSettings 增强模型稳定性、显存利用与推理一致性 | wanBlockSwap、ModelPatchTorchSettings |
| 7 | 采样生成 | 根据脚本与正负提示词混合采样,生成潜空间的动态视频序列 | WanMoeKSampler |
| 8 | 解码输出帧 | 将潜空间序列解码成实际图像帧 | VAEDecode |
| 9 | 视频合成 | 将帧图像整合、写入、导出为 mp4 文件 | VHS VideoCombine |
大模型应用
Qwen3_VQA 图像语义理解与文本补全
Qwen3_VQA 在工作流中承担"理解输入图像并将其语义补全到文字中"的大模型任务。它接收图片与前序 Prompt,生成带有叙事结构的文本内容。该节点的核心职责是从单张图中解析角色特征、场景线索、光线条件与可能的动作逻辑,为后续脚本扩写提供语义基础。Prompt 在此处用于指示模型输出所需的文字风格、内容密度、描述方式等,引导大模型保持结构化表达,并让后续节点能将文本无缝接入镜头脚本。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| Qwen3_VQA | 以上是视频的概述内容, (由 TextConcat 拼接的完整指令文本) | 从图像中抽取语义、补全文本描述,形成脚本前置内容 |
CR Prompt Text ① 视频导演规则注入
这一 CR Prompt Text 节点承担着将"导演级规则"注入文本生成的任务。它不处理图像,而是通过高度结构化的导演提示词约束输出,包括景别、镜头角度、光线类别、镜头运动方式与风格化要求。Prompt 的作用是告诉模型文本应该如何描述镜头语言,而不是单纯叙述画面,让生成结果更贴近专业分镜脚本。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| CR Prompt Text | 你是一位专业视频导演,参考文本生成一段完整的...(长篇导演规则 Prompt) | 将导演语法、镜头语言、光线规则注入文本,使脚本具备专业分镜结构 |
CR Prompt Text ② 主体行为与场景逻辑生成
该 CR Prompt Text 节点负责基于图像与用户设定,将人物主体、环境氛围与动作逻辑细化为完整描述。它聚焦在角色外形、场景质感、动作节奏、情绪表达等维度,让后续分镜具有视觉锚点。Prompt 在此节点决定了模型叙述主体行为的方式,强调连贯性、逻辑性和细节饱满度。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| CR Prompt Text | 主体:韩国亚裔哥特少女...(完整角色与场景描述 Prompt) | 定义角色外观、场景元素、动作节奏,是生成分镜逻辑的关键语义来源 |
CR Prompt Text ③ 负面提示规则构建
此 CR 节点用于生成用于负面引导的文本条件,帮助排除不需要的画面特征,例如畸形、噪点、结构错误、低质量细节等。Prompt 会列出各种不希望出现在最终生成中的画面问题,通过强制性语言,使模型在采样时远离这些错误倾向。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| CR Prompt Text | 色调艳丽,过曝,静态,细节模糊...(长篇负面提示 Prompt) | 通过大规模负面提示控制质量,压制畸形、错误细节与视觉噪声 |
使用方法
整个工作流的运行逻辑围绕"单图驱动的视频自动化生成"。用户只需替换输入图片与文本 Prompt,系统会自动执行图像理解、脚本扩写、条件编码、采样生成与视频导出五个阶段。从输入图像开始,大模型节点会解析画面并生成分镜级描述,再由采样模型根据描述创建动态潜空间序列,最终解码为图像帧并导出成 mp4 文件。角色图决定人物形象与风格,动作或场景 Prompt 决定视频逻辑,负面 Prompt 控制质量,而音频(若使用)可用于对齐视频节奏。整个流程高度自动化,只需用户提供素材即可完整生成 5 秒镜头作品。
| 注意点 | 说明 |
|---|---|
| 图片需具备清晰主体 | 大模型需要可识别的核心对象,否则脚本会缺乏焦点 |
| Prompt 应结构清晰 | 明确角色、场景、光线、动作有助于生成高质量分镜 |
| 尽量避免语义冲突 | 风格或动作描述冲突会导致模型无法判断场景逻辑 |
| 视频参数需符合模型尺寸 | 宽高建议为规范分辨率,以确保采样稳定 |
| 负面提示不要过度堆叠 | 太长或过重的负面 Prompt 可能压制应有细节 |
| 替换图片后需检查语义匹配度 | 若图像与 Prompt 不一致,脚本可能出现不连贯 |
| 不建议同时更换所有 Prompt | 保留一部分原始 Prompt 更利于生成稳定结构 |
应用场景
该工作流适用于"单图驱动的视频自动扩写"场合,能够把静态图像转换为含有逻辑动作、运镜、镜头语言的短片。无论是动漫角色展示、人物情绪表达、剧情衔接、Vtuber 片头、角色 PV、短剧片段预演等,都能快速得到自然连贯的动态效果。工作流在自动扩写细节、处理光线与构图语言方面表现稳定,能让非专业用户轻松获得专业级镜头脚本和可直接使用的视频素材。
| 应用场景 | 使用目标 | 典型用户 | 展示内容 | 实现效果 |
|---|---|---|---|---|
| 单图扩写成完整短视频 | 从图片生成含动作、光线、构图变化的 5 秒短片 | 创作者、视频博主、二创视频制作者 | 动作延展、镜头运动、光影变化、场景气氛深化 | 将静态画面转化为连贯的动态影像 |
| 二次元角色 PV | 用单图生成角色介绍或表现片段 | VTuber、动画同人作者 | 角色行为、情绪、镜头风格 | 稳定风格化动态角色视频 |
| 情绪与氛围短片 | 扩展画面情绪并加入镜头逻辑 | 视觉设计师、剧情作者 | 氛围营造、风格化光影 | 输出具有叙事性的氛围短视频 |
| 片头与过场动画 | 将单张视觉图延展成可用片头 | 游戏作者、UP 主 | 中近景切换、角色动作、光线变化 | 自然衔接、可直接使用的视频片段 |
| 剧情桥接画面 | 用图片推导短时动态过渡画面 | 短剧制作者 | 过渡镜头、氛围铺垫 | 平滑串联上下剧情的短镜头 |
开发与应用
更多 AIGC 与 ComfyUI工作流 相关研究学习内容请查阅:
更多内容桌面应用开发和学习文档请查阅:
AIGC工具平台Tauri+Django环境开发,支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用