【ComfyUI】Wan2.2 Animate 背景保留动作迁移视频生成

今天给大家演示一个基于 ComfyUI 的高精度视频生成工作流 ------ Wan2.2 Animate 背景保留与自动裁精准动作迁移视频生成。本工作流融合了动作捕捉、图像拼接、Lora 加权、多模型叠加等多重节点操作，能够在保留背景和人像结构的前提下，自动识别面部并完成精准的动作转移动画。配合高质量 LoRA 与多参数控制，最终生成的人物视频效果自然、过渡流畅，可广泛用于 AI 视频生成、虚拟形象驱动、角色动画演出等场景。

文章目录

工作流介绍
- 核心模型
- Node节点
工作流程
大模型应用
- [WanVideoTextEncodeCached 文本语义编码核心](#WanVideoTextEncodeCached 文本语义编码核心)
使用方法
应用场景
开发与应用

工作流介绍

该工作流通过引入多组图像输入（参考图、动作图、面部图），并结合 Wan2.2 Animate 模型、多阶段 LoRA 精调与 CLIP 图像嵌入识别，在保持背景稳定的同时，将指定人物动作精准迁移至目标图像，实现自动裁面部+动作绑定的流畅视频输出。整个流程强调模块化与参数化，兼容性强，用户可自由更换图像素材并快速适配各类动画场景。

核心模型

本工作流的核心模型是 Wan2.2-Animate-14B_fp8_e4m3fn_scaled_KJ.safetensors，搭载 LoRA 加权与 BlockSwap 可选参数，支持动作精度细化与推理性能优化。同时集成 clip_vision_h.safetensors 用于图像语义编码，引导画面更贴近提示意图。

模型名称	说明
Wan2.2-Animate-14B_fp8_e4m3fn_scaled_KJ.safetensors	主模型，负责驱动动作生成，支持 fp8 精度与 BlockSwap 动作细节控制
clip_vision_h.safetensors	CLIP 视觉模型，用于图像语义嵌入，辅助动作与图像匹配
umt5-xxl-enc-bf16.safetensors	文本编码模型，支持大参数量 prompt 语义理解，强化指令控制力

Node节点

本流程包含多个关键 Node 节点，包括输入提取、图像融合、图像嵌入、模型加载、LoRA 混合等模块。特别地，引入了 WanVideoSetLoRAs, WanVideoLoraSelectMulti, WanVideoTextEncodeCached 等节点，实现了动作迁移中多个控制维度的并行处理。

节点名称	说明
WanVideoModelLoader	加载 Wan2.2 动作模型，可附加 compile_args、LoRA、BlockSwap 参数
WanVideoLoraSelectMulti	多个 LoRA 加载与强度设定，可对不同动作特征做权重调整
WanVideoTextEncodeCached	提示词编码器，支持高性能文本嵌入缓存
WanVideoClipVisionEncode	图像语义编码节点，控制输出图像与原始输入保持一致性
ImageConcatMulti	多图拼接节点，用于图像上下/左右组合对齐
VHS_VideoCombine	最终视频合成器，生成带音频与图像合成的高质量 mp4 输出
PixelPerfectResolution	图像尺寸精配节点，确保推理图像符合最佳分辨率输入需求

工作流程

本工作流以图像驱动为核心，围绕"参考图识别 → 动作提取 → 多图合成 → 动作迁移 → 视频输出"五大阶段展开，全面覆盖从图像加载、模型控制、动作绑定到最终视频生成的完整流程。每个阶段都对应特定的 Node 模块，支持灵活参数控制与多模态组合。整体流程层层推进，确保画面风格统一、动作自然、背景稳定。

流程序号	流程阶段	工作描述	使用节点
1	图像输入	获取 `reference_image`、`pose_images`、`face_images` 等输入图像	GetNode
2	图像拼接	将多张图像按顺序拼接，为后续动作迁移提供目标参考	ImageConcatMulti
3	模型加载	加载 `Wan2.2-Animate` 主模型，并附加编译设置、BlockSwap 与 LoRA 参数控制	WanVideoModelLoader / WanVideoSetLoRAs / WanVideoSetBlockSwap
4	特征提取	图像嵌入与 prompt 编码处理，生成视觉与文本语义引导	WanVideoClipVisionEncode / WanVideoTextEncodeCached
5	分辨率适配	对输入图像尺寸精配，确保模型接受标准尺寸图像	PixelPerfectResolution
6	动作迁移绑定	基于 pose 图和 reference 图合成最终帧序列，完成动作迁移	WanVideoWrapper 节点组合
7	视频合成导出	将帧图与音频合成为视频并导出，支持自定义帧率、编码格式等	VHS_VideoCombine

大模型应用

WanVideoTextEncodeCached 文本语义编码核心

这个节点负责把用户输入的文字 Prompt 转成视频模型能理解的语义向量。它不参与图像处理、不提取动作、不裁，也不渲染视频，只专注于"语言到语义"的转换。

Prompt 在这里承担核心作用。正向 Prompt 决定画面的风格、角色表现、光线质感、构图偏好，反向 Prompt 用来压制不希望出现的问题，例如扭曲、畸变、过度锐化或风格化。

所有视频生成的走向最终都依赖这里输出的文本嵌入，因此写 Prompt 就是在直接定义视频的"语义框架"。

节点名称	Prompt 信息	说明
WanVideoTextEncodeCached	Positive Prompt：（连接自节点 88 的文本，用户自行输入） Negative Prompt：色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走	负责将文字 Prompt 编码为视频模型可用的文本语义嵌入，是整个工作流中唯一拥有语言理解能力的节点。

使用方法

整个工作流以用户素材作为起点，通过自动、动作解析、背景保留、角色迁移，再结合文本语义嵌入生成最终视频。用户只需替换角色图、动作参考、音频和 Prompt，系统便会自动执行、蒙版生成、动作骨骼识别、背景保持与最终视频生成。

角色图提供主体信息，动作素材定义运动节奏与身体轨迹，音频用于补充节奏配合或后期合成，Prompt 决定最终画面特征与风格走向。每次替换任意素材，整个工作流都会重新生成完整的视觉序列，实现完全自动化的生成流程。

注意点	说明
正向 Prompt 要清晰	避免堆砌形容词，越明确画面越稳定
反向 Prompt 建议保持全面	影响"干净度"，能减少畸形和异常结构
角色图尽量无遮挡	遮挡会影响裁与动作迁移的准确度
动作视频越清晰越好	模糊或抖动会影响骨骼识别效果
音频时长需匹配目标视频	不匹配会导致最后导出出现空段
替换素材后无需手动更新节点	工作流会自动重新推理并生成最终视频

应用场景

该工作流广泛适用于 AI 驱动的动态人物视频生成领域。通过将目标人物的静态照片与动作图融合，并自动完成、动作绑定与背景保留，极大提升生成效率与画面质量。典型用户包括动画设计师、自媒体视频创作者、虚拟人驱动开发者等，特别适合用于虚拟角色演出、舞蹈动画、数字分身驱动等方向。

应用场景	使用目标	典型用户	展示内容	实现效果
虚拟人驱动	用照片驱动虚拟角色完成指定动作演出	虚拟主播、IP运营方	写真 + 舞蹈动作	实现精准动作迁移 + 保留免费结构 + 背景还原
AI 动画制作	自动生成动画素材用于短视频创作	动画师、自媒体剪辑者	指定风格人物动作视频	提供清晰连贯的动作表现，自动合成高质量视频
虚拟演唱会	驱动虚拟偶像完成歌词/表演同步动作	二次元内容团队	舞台表演、唱歌镜头	动作与音频高度匹配，支持同步输出带音频的表演视频
视频替换	用面部图替换指定动作人物	内容创作者、娱乐开发者	表演重现、表情融合	保留动作与原图风格，自动裁剪并替换

开发与应用

更多 AIGC 与 ComfyUI工作流相关研究学习内容请查阅：

ComfyUI使用教程、开发指导、资源下载

更多内容桌面应用开发和学习文档请查阅：

AIGC工具平台Tauri+Django环境开发，支持局域网使用
 AIGC工具平台Tauri+Django常见错误与解决办法
 AIGC工具平台Tauri+Django内容生产介绍和使用
 AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
 AIGC工具平台Tauri+Django开源git项目介绍和使用