【ComfyUI】Wan VACE 控制输入视频与参考图生成

今天演示的案例是一个基于 Wan2.1 VACE 的 ComfyUI 视频生成工作流，整个流程通过加载多种核心模型并结合 CausVid LoRA 加速技术，实现了从文本提示、参考图像与控制视频到动态视频的生成。

该工作流支持 1.3B 与 14B 两种规模的模型，其中 14B 能够输出高质量的 720P 视频，而 1.3B 更适合在资源有限的场景下快速生成 480P 动画。结合正向与负向提示的编码，以及视频边缘检测的控制方式，最终生成的视频具备清晰的动作连贯性和较高的艺术表现力，非常适合在教学、创意短片或 AI 绘画扩展应用中使用。

文章目录

工作流介绍
- 核心模型
- Node节点
工作流程
大模型应用
- [CLIPTextEncode（Positive Prompt）视频语义驱动核心](#CLIPTextEncode（Positive Prompt）视频语义驱动核心)
- [CLIPTextEncode（Negative Prompt）画面瑕疵抑制](#CLIPTextEncode（Negative Prompt）画面瑕疵抑制)
- [WanVaceToVideo（Prompt 条件融合）文本驱动的视频动作生成核心](#WanVaceToVideo（Prompt 条件融合）文本驱动的视频动作生成核心)
使用方法
应用场景
开发与应用

工作流介绍

这个工作流的设计核心在于模型加载、文本条件编码、采样解码和视频合成环节的协同工作。UNET 模型与 VAE 模型分别承担了扩散推理与图像解码的任务，而 CLIP 编码器负责将文本转化为条件信号。通过 KSampler 的迭代采样生成潜在空间内容，再结合 WanVaceToVideo 节点将参考图像与控制视频融合，最终由解码器还原为逐帧图像，合成完整视频。整个过程不仅可以通过 LoRA 轻量化调整性能，还能在不同分辨率和运行环境中灵活应用。

核心模型

该工作流依赖多个核心模型协同运行，其中扩散模型决定了生成质量与分辨率，VAE 模型负责潜变量与图像之间的解码映射，CLIP 模型则承担文本到条件的语义编码，而 LoRA 模型用于针对视频生成场景进行加速优化。综合这些模型的配合，工作流实现了高效的视频合成能力。

模型名称	说明
wan2.1_vace_14B_fp16.safetensors	14B 参数量扩散模型，支持 480P 与 720P 高质量视频生成
wan2.1_vace_1.3B_fp16.safetensors	1.3B 参数量扩散模型，仅支持 480P 输出，生成速度快
wan_2.1_vae.safetensors	VAE 模型，用于潜变量与图像之间的解码与重构
umt5_xxl_fp16 / fp8.safetensors	文本编码模型，将正负提示转化为语义条件输入
Wan21_CausVid_14B_T2V_lora_rank32.safetensors	针对 14B 模型的 LoRA 加速，显著缩短视频生成时间
Wan21_CausVid_bidirect2_T2V_1_3B_lora_rank32.safetensors	针对 1.3B 模型的 LoRA 优化，提升采样效率与连贯性

Node节点

工作流的节点设计体现了从输入到输出的完整链路。模型加载节点保证了必要组件的初始化，CLIPTextEncode 节点将文本转化为条件控制信号，WanVaceToVideo 节点是生成潜变量的关键部分，配合 KSampler 的迭代采样实现动态画面的潜在表示，再通过 VAE 解码得到可视图像，最终交由 SaveVideo 节点合成视频输出。除此之外，还加入了 Canny 节点进行边缘检测，以控制生成视频的结构清晰度，保证了结果的细节表现。

节点名称	说明
UNETLoader	加载核心扩散模型，决定视频生成的基底效果
VAELoader	加载 VAE 模型，用于潜变量与图像的解码映射
CLIPLoader	加载文本编码模型，将自然语言转为条件输入
LoraLoader	加载 LoRA 模型，对扩散模型进行加速或性能微调
CLIPTextEncode (Positive/Negative)	编码正向与负向提示，形成生成约束与优化
WanVaceToVideo	将提示与参考数据映射到视频潜变量
KSampler	在潜在空间中进行迭代采样，生成连贯视频帧
VAEDecode	将潜在变量还原为图像帧
Canny	对参考视频图像进行边缘检测，提供结构约束
CreateVideo	将图像帧与音频合成为视频文件
SaveVideo / SaveAnimatedWEBP	保存输出结果，支持 MP4 与 WebP 格式

工作流程

整个工作流围绕视频生成展开，涵盖模型加载、文本编码、采样解码、图像预处理和视频合成等阶段。通过 CLIP 文本提示与反向提示建立生成条件，再结合 Wan VACE 模型和 CausVid LoRA 进行高效视频生成。视频预处理环节引入控制视频和参考图像，利用边缘检测增强细节表现，最后通过 VAE 解码与多种保存方式输出结果。整个过程强调在保证画面质量的同时提升生成速度，并通过不同模型与 LoRA 的组合实现灵活的分辨率支持。

流程序号	流程阶段	工作描述	使用节点
1	模型加载	加载 UNet、VAE、CLIP 等基础模型，并附加相应的 LoRA，用于支持不同规模的视频生成。	UNETLoader、VAELoader、CLIPLoader、LoraLoader
2	提示词处理	将正向与负向提示词分别编码成条件输入，建立视频生成的语义约束。	CLIPTextEncode (Positive/Negative)
3	条件组合与采样	使用 WanVaceToVideo 将提示词与控制视频、参考图像结合，输出潜空间数据，并由 KSampler 完成采样。	WanVaceToVideo、KSampler
4	图像预处理	从控制视频提取帧序列，经过边缘检测增强结构信息，为后续合成提供辅助特征。	LoadVideo、GetVideoComponents、Canny
5	解码与生成图像	将潜变量通过 VAE 解码成图像序列，结合裁剪模块保证序列完整性。	TrimVideoLatent、VAEDecode
6	视频合成与预览	图像序列与音频合成为视频，可保存为 MP4 或 WebP 格式，并支持中间图像预览。	CreateVideo、SaveVideo、SaveAnimatedWEBP、PreviewImage

大模型应用

CLIPTextEncode（Positive Prompt）视频语义驱动核心

正向 CLIPTextEncode 节点负责将用户的 Prompt 转化为语义嵌入，用于指导 Wan VACE 模型理解视频生成的动作节奏、镜头表现和情绪氛围。Prompt 决定生成视频的视觉风格、镜头距离、角色动作以及整体画面表现，是控制视频生成逻辑的核心入口。语义越细，动作越精准；风格描述越清晰，整体画面越统一。

节点名称	Prompt 信息	说明
CLIP Text Encode (Positive Prompt)	The girl is dancing in a sea of flowers, slowly moving her hands. There is a close - up shot of her upper body. The character is surrounded by other transparent glass flowers in the style of Nicoletta Ceccoli, creating a beautiful, surreal, and emotionally expressive movie scene with a white, transparent feel and a dreamy atmosphere.	将正向 Prompt 转化为语义向量，用于驱动视频生成模型理解动作、镜头、氛围与风格。

CLIPTextEncode（Negative Prompt）画面瑕疵抑制

负向 Prompt 用于告诉模型哪些内容"不能出现"。它不参与创造性生成，只负责限制错误动作、异常肢体、模糊噪点、多肢畸形等问题。通过语义嵌入的反向约束，确保最终视频保持干净、稳定、无违和。

节点名称	Prompt 信息	说明
CLIP Text Encode (Negative Prompt)	过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走	通过负向 Prompt 的语义嵌入抑制错误动作、低质细节和畸形元素，保证画面自然稳定。

WanVaceToVideo（Prompt 条件融合）文本驱动的视频动作生成核心

该节点是 VACE 视频生成的关键大模型模块。它将正负向 Prompt、参考图像、控制视频（可为 Canny 边缘提取后的视频帧）一起整合，生成统一的条件潜变量。Prompt 在该节点中作为"动作指令"，决定动作节奏、风格统一性、镜头叙事与风格融合强度。

节点名称	Prompt 信息	说明
WanVaceToVideo	正向与负向 Prompt 由前两个 CLIPTextEncode 提供	将文本语义、控制视频、参考图像一起融合成为视频生成潜变量，是整个视频动作迁移与生成的核心大模型节点。

使用方法

整个视频生成流程基于 Wan VACE 的文本驱动视频生成架构，通过控制视频、参考图像和 Prompt 的组合实现可控动作生成。用户只需替换参考图像、加载新的控制视频、填入 Prompt，即可自动生成具有指定动作和视觉风格的视频片段。

控制视频用于提供动作流、镜头节奏或位移趋势；Canny 预处理确保结构清晰。参考图像负责角色外观的固定，使生成视频的主角保持统一形象。Prompt 决定角色如何表现、镜头如何叙事、背景如何渲染。模型根据 Prompt 与视频帧同步生成潜变量，经 KSampler 采样后被解码成视频帧，并最终由 CreateVideo 和 SaveVideo 输出为 MP4 或 WebP 动图。

注意点	说明
Prompt 描述越详细，动作越准确	决定镜头、情绪、动作力度和视觉风格
使用负向 Prompt 抑制瑕疵	防止出现多肢、变形、模糊、噪点等问题
控制视频需干净、结构清晰	影响动作迁移的准确度
参考图像应高分辨、光照清晰	确保角色外观统一不漂移
LoRA 强度需按场景调整	0.3 到 0.7 范围最稳定，过高可能导致抖动画面
调整 KSampler 步数与 CFG	步数过低动作会不连贯，过高生成变慢
输出分辨率与模型匹配	14B 支持 720P，1.3B 仅支持 480P

应用场景

该工作流的设计面向影视创作、动画生成与实验性视频研究。通过高度可控的提示词与 LoRA 模型组合，可以在保证画面质量的前提下实现快速生成。其应用场景包括艺术创作、广告短片生成、AI 实验教学等，不同用户能够根据需求选择高质量或高速模式。对于研究人员，该流程还可作为模型评测和优化的实验平台，借助边缘检测与参考图像增强生成结果的可控性。

应用场景	使用目标	典型用户	展示内容	实现效果
艺术创作	借助提示词快速生成具备特定风格的短片	插画师、独立动画人	超现实风格的动态画面、梦境般的场景	提升创意表达效率，增强作品表现力
广告短片	高效生成与产品相关的动态视觉效果	广告设计团队	产品动态展示、品牌视觉包装	降低成本，快速形成视觉方案
教学实验	作为 AI 视频生成的实践案例，用于教学演示	高校教师、研究者	从提示词到视频的生成链路演示	帮助学习者理解 AI 视频生成原理与流程
研究探索	测试不同模型与 LoRA 在视频生成中的表现	AI 研究人员	同一提示下的不同模型输出对比	探索模型性能差异，验证优化策略
社交传播	快速生成新颖的短视频内容以提升社交平台影响力	自媒体创作者	创意短视频、视觉特效场景	增加互动与传播力，吸引观众注意

开发与应用

更多 AIGC 与 ComfyUI工作流相关研究学习内容请查阅：

ComfyUI使用教程、开发指导、资源下载

更多内容桌面应用开发和学习文档请查阅：

AIGC工具平台Tauri+Django环境开发，支持局域网使用
 AIGC工具平台Tauri+Django常见错误与解决办法
 AIGC工具平台Tauri+Django内容生产介绍和使用
 AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
 AIGC工具平台Tauri+Django开源git项目介绍和使用