今天演示的案例是一套 Wan2.2 图生视频 ComfyUI 工作流,整个流程通过加载 Wan 系列的核心模型,结合 VAE 编解码器、CLIP 文本编码器以及 UNet 主体网络,实现了从静态图像到动态视频的转换。
在这一过程中,正向与反向提示词的双重控制让画面内容能够保持叙事一致性,同时 LoRA 的引入提升了运算效率,使生成速度与视频动态表现之间达到平衡。整体效果直观展现了从一张静态画面到完整视频片段的动态演绎能力。
文章目录
- 工作流介绍
- 工作流程
- 大模型应用
-
- [CLIP Text Encode (Positive Prompt) 文本语义驱动的视频动作生成](#CLIP Text Encode (Positive Prompt) 文本语义驱动的视频动作生成)
- [CLIP Text Encode (Negative Prompt) 质量约束与内容抑制](#CLIP Text Encode (Negative Prompt) 质量约束与内容抑制)
- 使用方法
- 应用场景
- 开发与应用
工作流介绍
该工作流的设计逻辑是围绕 图像到视频的生成链路进行构建,加载模型后通过起始图像输入和提示词设定,驱动 UNet 与采样器完成潜变量的推理,再结合 VAE 解码与视频合成节点输出最终视频。整个流程分为加载模型、上传图像、设定提示词与参数、潜变量采样和视频输出几大环节,形成了一个可控性强、扩展灵活的标准化生成方案。

核心模型
在模型层面,工作流集成了 Wan2.2 的高噪声与低噪声扩散模型,并搭配 umt5 文本编码器与 wan_2.1 VAE 进行推理。高低噪声模型分别适用于不同的动态表达场景,LoRA 的引入在保证速度的同时削弱了部分视频动态,从而形成两类可选方案。核心模型间的配合保证了提示词到视频画面的映射质量,也兼顾了生成效率与显存占用的平衡。
| 模型名称 | 说明 |
|---|---|
| wan2.2_i2v_high_noise_14B_fp8_scaled.safetensors | 高噪声版本的扩散模型,增强画面动态感 |
| wan2.2_i2v_low_noise_14B_fp8_scaled.safetensors | 低噪声版本的扩散模型,保证画面稳定性 |
| wan2.2_i2v_lightx2v_4steps_lora_v1_high_noise.safetensors | 高噪声 LoRA,减少采样步数提升生成速度 |
| wan2.2_i2v_lightx2v_4steps_lora_v1_low_noise.safetensors | 低噪声 LoRA,进一步平衡速度与稳定性 |
| wan_2.1_vae.safetensors | VAE 模型,负责潜变量与图像间的转换 |
| umt5_xxl_fp8_e4m3fn_scaled.safetensors | 文本编码器,支持多语言提示词理解 |
Node节点
节点配置上,工作流涵盖了图像加载、CLIP 文本正反向编码、UNet 模型加载与采样器、VAE 编解码、视频拼接与保存等关键环节。WanImageToVideo 节点是核心桥梁,它将文本提示、VAE 与输入图像结合生成潜变量,随后经由 KSamplerAdvanced 节点完成采样并解码为图像,再通过 CreateVideo 与 SaveVideo 节点输出最终视频。节点间的衔接形成了从语义理解到视频渲染的全链路闭环。
| 节点名称 | 说明 |
|---|---|
| CLIPLoader / CLIPTextEncode | 负责加载与执行文本提示词的编码,区分正向与反向提示 |
| UNETLoader | 加载扩散模型,执行潜变量推理核心运算 |
| LoraLoaderModelOnly | 载入 LoRA 模型以优化生成速度与特定风格 |
| ModelSamplingSD3 | 配合 UNet 实现采样机制调整 |
| WanImageToVideo | 将输入图像、提示词与 VAE 融合生成潜变量视频序列 |
| KSamplerAdvanced | 提供灵活的采样参数配置,控制细节与动态表现 |
| VAEDecode | 将潜变量还原为可视图像 |
| CreateVideo | 将图像序列合成为视频 |
| SaveVideo | 输出并保存最终视频文件 |
工作流程
工作流在执行逻辑上分为从模型加载到视频输出的连续阶段,每个阶段都承担着承上启下的作用。加载模型与文本编码环节为后续的潜变量推理提供了语言与图像特征的输入,图像上传与参数设定则确保了生成视频的基准画面和动态控制。采样器在潜变量空间中进行迭代更新,将正向与反向提示词的语义控制融入潜变量,再通过 VAE 解码器将潜变量还原为帧图像。最后,CreateVideo 节点将这些帧序列拼接成视频,SaveVideo 节点完成最终的文件导出。整个链路形成了从语义理解到视频动态渲染的闭环,使得生成结果既可控又高效。
| 流程序号 | 流程阶段 | 工作描述 | 使用节点 |
|---|---|---|---|
| 1 | 模型加载 | 导入 UNet、VAE、CLIP 编码器和 LoRA 等核心模型,建立推理基础 | UNETLoader、VAELoader、CLIPLoader、LoraLoaderModelOnly |
| 2 | 图像上传 | 载入起始图像,作为视频动态生成的初始输入 | LoadImage |
| 3 | 提示词设定 | 编码正向与反向提示,确定画面内容与需要规避的特征 | CLIPTextEncode (Positive/Negative Prompt) |
| 4 | 视频参数设置 | 配置分辨率、帧数与长度,决定最终视频的结构特征 | WanImageToVideo |
| 5 | 潜变量采样 | 在潜变量空间内迭代更新,融合提示信息生成动态图像潜变量 | KSamplerAdvanced、ModelSamplingSD3 |
| 6 | 图像解码 | 将潜变量转换为可视化的图像帧 | VAEDecode |
| 7 | 视频合成 | 将生成的图像帧拼接成视频序列 | CreateVideo |
| 8 | 视频保存 | 输出并保存最终生成的视频文件 | SaveVideo |
大模型应用
CLIP Text Encode (Positive Prompt) 文本语义驱动的视频动作生成
在本工作流中,正向 Prompt 的 CLIPTextEncode 节点用于将用户的剧情、动作、镜头语言等文本描述转换成可被 Wan2.2 I2V 模型理解的语义嵌入。
这些嵌入决定视频中角色的姿态、镜头运动、节奏以及整体气势,是视频生成的语义核心。
Prompt 的细节越明确,视频的动作感、镜头轨迹和叙事感就越准确。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| CLIP Text Encode (Positive Prompt) | The white dragon warrior stands still, eyes full of determination and strength. The camera slowly moves closer or circles around the warrior, highlighting the powerful presence and heroic spirit of the character. | 将正向 Prompt 转换成语义嵌入,控制视频中角色的气势、镜头运动方向和情绪表达,使生成的视频具有强叙事性和动态表现力。 |
CLIP Text Encode (Negative Prompt) 质量约束与内容抑制
负向 Prompt 的作用是过滤掉视频中不应出现的杂讯、瑕疵或错误特征。通过负向语义嵌入,模型能自动避开结构畸形、过曝、静止画面、手部错误等低质量表现,使视频输出保持干净、自然。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| CLIP Text Encode (Negative Prompt) | 色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走 | 用于抑制所有不符合预期的视频质量问题,使 Wan I2V 的输出更稳定、动态自然。 |
使用方法
本工作流通过 Wan2.2 I2V 的双模型结构(高噪声流与低噪声流),结合 LoRA 四步增强推理,实现从单张静态图生成稳定、动态自然的视频。
流程的核心由四个部分组成:加载模型、上传起始图、设置视频尺寸、输入 Prompt,然后自动完成全部视频生成。
用户只需要替换起始图片、调整视频分辨率与时长、输入自己的正向与负向提示词,系统就会通过 WanImageToVideo 将静态图转化为带有镜头运动、动作感和影视表现力的视频。
正向 Prompt 用于定义剧情与镜头语言,负向 Prompt 用于清理瑕疵。
如果用户需要加速生成,也可以选择开启 "fp8 + 4steps LoRA" 区域,通过轻量 LoRA 加速推理。
生成的视频会自动进入双阶段 KSampler(高噪声→低噪声)进行渐进式生成,之后通过 VAE 解码成帧图像,再由 CreateVideo 合成为 MP4 视频并保存。
| 注意点 | 说明 |
|---|---|
| Prompt 要写得具体 | 越明确的动作、镜头、情绪描述,视频越自然 |
| 负向 Prompt 必填 | 用来压制畸形、噪点、静态画面等常见问题 |
| 起始图越清晰越好 | 原图品质直接影响视频稳定性与细节 |
| 两套模型只能启用一套 | fp8_scaled 与 fp8_scaled+LoRA 分别使用,不可同时启用 |
| 视频尺寸越大越吃显存 | VRAM 不足请保持 640×640 或更低 |
| LoRA 模式生成更快但动态更少 | 若需要更强的视频动感,请使用纯 FP8 模式 |
| KSampler 设置影响动作平滑度 | 步数越高,视频越细腻但耗时也更长 |
应用场景
该工作流的应用场景覆盖了从影视特效到游戏角色演绎的多个领域,特别适合在短视频生成、故事叙事动画、角色动态展示等任务中使用。通过正反向提示的设计,用户能够更精准地控制生成效果,例如避免画面模糊或多余物体的情况。高噪声模型更适合需要强烈动作表现的片段,而低噪声模型则适合风格统一的稳定画面。LoRA 模块的存在让该工作流在效率和动态表现之间有更灵活的选择,能够适配不同硬件条件下的生产需求。整体而言,这套流程能够在创意视频生成中实现较高的自由度与可控性。
| 应用场景 | 使用目标 | 典型用户 | 展示内容 | 实现效果 |
|---|---|---|---|---|
| 短视频生成 | 从静态图像快速生成动态片段 | 自媒体创作者 | 单张图片转视频 | 提升创作效率 |
| 动画演绎 | 将角色设定转化为故事片段 | 游戏开发者 | 角色动态展示 | 保持风格一致 |
| 影视特效 | 替代部分传统动画渲染流程 | 特效团队 | 镜头运动、场景动态 | 降低成本与时间消耗 |
| 教学演示 | 直观展现 AI 动画原理 | 教育研究人员 | 图像到视频的链路演示 | 提供学习案例 |
| 商业广告 | 快速生成产品动态展示 | 品牌设计团队 | 产品动态效果 | 增强视觉吸引力 |
开发与应用
更多 AIGC 与 ComfyUI工作流 相关研究学习内容请查阅:
更多内容桌面应用开发和学习文档请查阅:
AIGC工具平台Tauri+Django环境开发,支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用