今天给大家演示一个 Mochi ComfyUI 视频生成工作流。通过该流程可以将文本提示转化为动态的短视频。
整个过程从加载核心模型、设定视频尺寸、输入提示词,到采样生成、解码,再到视频输出,形成一个完整的视频生成管线。读者可以直观了解如何通过 ComfyUI 结合 Mochi 模型,从零开始生成高质量的短视频。
文章目录
- 工作流介绍
- 工作流程
- 大模型应用
-
- [CLIPTextEncode(Positive) 文本语义核心驱动](#CLIPTextEncode(Positive) 文本语义核心驱动)
- [CLIPTextEncode(Negative) 负向语义约束](#CLIPTextEncode(Negative) 负向语义约束)
- 使用方法
- 应用场景
- 开发与应用
工作流介绍
这个工作流以 Mochi 模型 为核心,结合 CLIP 文本编码器与 VAE 模块,将文本提示转化为潜空间表示,再通过 KSampler 进行迭代采样,最终生成影像并合成为视频。整个流程节点紧凑且层次分明,能够快速完成视频内容生成,非常适合入门与扩展创意。

核心模型
工作流加载了三大核心模型:UNet、CLIP 编码器和 VAE。UNet 负责图像/视频的潜空间采样,CLIP 提供语义理解与文本条件输入,VAE 则在潜空间与像素空间间进行转换。三者结合,实现了文本到视频的生成链路。
| 模型名称 | 说明 |
|---|---|
| mochi_preview_bf16.safetensors | UNet 模型,用于潜空间视频生成的核心推理。 |
| t5xxl_fp16.safetensors | 文本编码器(CLIP/T5),将提示词转为条件向量。 |
| mochi_vae.safetensors | VAE 模型,用于潜变量和图像之间的解码与重建。 |
Node节点
该工作流包含模型加载、文本编码、潜空间采样、解码与视频合成等核心节点。节点之间形成完整的管线,从输入到输出一气呵成。
| 节点名称 | 说明 |
|---|---|
| UNETLoader | 加载 Mochi 的 UNet 模型,执行视频生成的推理核心。 |
| CLIPLoader | 加载文本编码器模型,支持提示词转为向量条件。 |
| VAELoader | 加载 VAE 模型,负责潜变量与图像之间的转换。 |
| EmptyMochiLatentVideo | 创建空的潜空间视频容器,设定视频分辨率与时长。 |
| CLIPTextEncode | 对正向/负向提示词进行编码,生成条件信息。 |
| KSampler | 基于模型与提示进行采样,生成潜变量结果。 |
| VAEDecode | 将潜变量解码为可视图像帧。 |
| CreateVideo | 将解码出的图像帧组合为视频。 |
| SaveVideo | 保存最终生成的视频文件。 |
| MarkdownNote | 文档说明节点,用于附加教程信息链接。 |
工作流程
整个工作流程分为三个主要阶段:模型加载、视频尺寸设定与提示输入、采样生成与输出。通过 UNet、CLIP、VAE 的协同工作,文本被转化为潜空间表示,再经采样生成高质量图像序列,最终合成为视频。流程紧凑清晰,方便用户快速掌握并拓展应用。
| 流程序号 | 流程阶段 | 工作描述 | 使用节点 |
|---|---|---|---|
| 1 | 模型加载 | 加载核心模型,包括 UNet、CLIP 文本编码器和 VAE,为生成提供基础。 | UNETLoader, CLIPLoader, VAELoader |
| 2 | 视频尺寸设定 | 创建潜空间视频容器,设定分辨率、帧数和时长参数。 | EmptyMochiLatentVideo |
| 3 | 提示输入 | 对正向与负向提示词进行编码,转化为生成条件。 | CLIPTextEncode |
| 4 | 采样生成 | 使用 KSampler 在潜空间中迭代采样,生成符合提示的潜变量。 | KSampler |
| 5 | 图像解码 | 将潜变量解码为实际图像帧,形成画面。 | VAEDecode |
| 6 | 视频合成 | 将图像帧顺序组合为视频序列,可选添加音频。 | CreateVideo |
| 7 | 输出保存 | 将生成的视频保存到指定目录。 | SaveVideo |
大模型应用
CLIPTextEncode(Positive) 文本语义核心驱动
该节点负责将正向 Prompt 转换为语义嵌入,用于指导视频生成模型理解动作、风格与镜头感。Prompt 内容决定画面的节奏、主体行为以及整体氛围,是整个视频生成过程的语言驱动核心。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| CLIPTextEncode(Positive) | a fox moving quickly in a beautiful winter scenery nature trees sunset tracking camera | 将正向 Prompt 文本编码为视频模型可识别的语义嵌入,控制画面内容、动作风格、景别感与环境氛围。 |
CLIPTextEncode(Negative) 负向语义约束
该节点输出负向嵌入,用于抑制低质量画面、不自然细节或错误视觉特征。通过提供负向 Prompt,可以减少畸变、杂色、异常物体等干扰元素,提升视频生成的干净度和一致性。
| 节点名称 | Prompt 信息 | 说明 |
|---|---|---|
| CLIPTextEncode(Negative) | (为空) | 负向语义编码,用于限制不希望出现的画面元素。当前为空,将使用默认负面约束以稳定视觉质量。 |
使用方法
该工作流以简洁、线性的方式完成从文本到动态视频的生成。用户首先加载模型与 CLIP 文本编码,再设定视频尺寸参数,随后输入正向和负向 Prompt。正向文本提供画面语义基础,如主体、动作、镜头视角与场景风格;负向文本承担限制作用,抑制不希望的细节偏差。随后系统自动创建空的 Mochi 视频潜变量,结合模型加载的 UNET 权重,通过 KSampler 完成潜空间采样,生成动态影像的潜在序列。VAE 将潜变量解码为可见图像帧,CreateVideo 再将这些帧组装为视频文件。用户只需更换 Prompt 或调整尺寸,即可自动生成对应风格的动态内容。
| 注意点 | 说明 |
|---|---|
| 正向文案尽量具体 | 明确主体、动作、场景与风格,提升画面一致性 |
| 负向 Prompt 可补充 | 用于避免畸形、异常景物或画面脏乱 |
| 合理设置视频尺寸 | 过高分辨率会显著增加生成时间 |
| 采样步数与 CFG 会影响风格 | 较高 CFG 会提高语义一致性但降低自由度 |
| 输入动作与场景需逻辑统一 | 避免出现与 Prompt 冲突的画面逻辑问题 |
应用场景
该工作流能够将简单的文本提示转化为动态视频,适合多种创意与应用领域。无论是 艺术创作、教育演示 ,还是 广告短片、AI 动画原型,都可以通过这一流程快速实现。从提示词到视频仅需数个节点配置,降低了视频生成的技术门槛。
| 应用场景 | 使用目标 | 典型用户 | 展示内容 | 实现效果 |
|---|---|---|---|---|
| 艺术创作 | 将文本描述转化为创意短片 | 数字艺术家 / 插画师 | 富有表现力的动态画面 | 快速生成概念视频,辅助创作 |
| 教育演示 | 将抽象概念直观可视化 | 教师 / 教研人员 | 教学场景或科普演示 | 提高课堂趣味性与理解度 |
| 广告短片 | 快速生成广告草案与动态效果 | 品牌设计师 / 市场人员 | 产品展示或宣传片 | 降低制作成本,加速迭代 |
| 动画原型 | 将分镜转化为动画雏形 | 动画团队 / 独立制作者 | 角色动作与场景切换 | 快速测试创意与剧情流畅性 |
| 个性化生成 | 制作定制化短视频内容 | 普通用户 / 内容创作者 | AI 生成的独特视频 | 增强社交媒体传播力 |
开发与应用
更多 AIGC 与 ComfyUI工作流 相关研究学习内容请查阅:
更多内容桌面应用开发和学习文档请查阅:
AIGC工具平台Tauri+Django环境开发,支持局域网使用
AIGC工具平台Tauri+Django常见错误与解决办法
AIGC工具平台Tauri+Django内容生产介绍和使用
AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
AIGC工具平台Tauri+Django开源git项目介绍和使用