【ComfyUI】Mochi 文本转视频

今天给大家演示一个 Mochi ComfyUI 视频生成工作流。通过该流程可以将文本提示转化为动态的短视频。

整个过程从加载核心模型、设定视频尺寸、输入提示词，到采样生成、解码，再到视频输出，形成一个完整的视频生成管线。读者可以直观了解如何通过 ComfyUI 结合 Mochi 模型，从零开始生成高质量的短视频。

文章目录

工作流介绍
- 核心模型
- Node节点
工作流程
大模型应用
- [CLIPTextEncode（Positive）文本语义核心驱动](#CLIPTextEncode（Positive）文本语义核心驱动)
- [CLIPTextEncode（Negative）负向语义约束](#CLIPTextEncode（Negative）负向语义约束)
使用方法
应用场景
开发与应用

工作流介绍

这个工作流以 Mochi 模型 为核心，结合 CLIP 文本编码器与 VAE 模块，将文本提示转化为潜空间表示，再通过 KSampler 进行迭代采样，最终生成影像并合成为视频。整个流程节点紧凑且层次分明，能够快速完成视频内容生成，非常适合入门与扩展创意。

核心模型

工作流加载了三大核心模型：UNet、CLIP 编码器和 VAE。UNet 负责图像/视频的潜空间采样，CLIP 提供语义理解与文本条件输入，VAE 则在潜空间与像素空间间进行转换。三者结合，实现了文本到视频的生成链路。

模型名称	说明
mochi_preview_bf16.safetensors	UNet 模型，用于潜空间视频生成的核心推理。
t5xxl_fp16.safetensors	文本编码器（CLIP/T5），将提示词转为条件向量。
mochi_vae.safetensors	VAE 模型，用于潜变量和图像之间的解码与重建。

Node节点

该工作流包含模型加载、文本编码、潜空间采样、解码与视频合成等核心节点。节点之间形成完整的管线，从输入到输出一气呵成。

节点名称	说明
UNETLoader	加载 Mochi 的 UNet 模型，执行视频生成的推理核心。
CLIPLoader	加载文本编码器模型，支持提示词转为向量条件。
VAELoader	加载 VAE 模型，负责潜变量与图像之间的转换。
EmptyMochiLatentVideo	创建空的潜空间视频容器，设定视频分辨率与时长。
CLIPTextEncode	对正向/负向提示词进行编码，生成条件信息。
KSampler	基于模型与提示进行采样，生成潜变量结果。
VAEDecode	将潜变量解码为可视图像帧。
CreateVideo	将解码出的图像帧组合为视频。
SaveVideo	保存最终生成的视频文件。
MarkdownNote	文档说明节点，用于附加教程信息链接。

工作流程

整个工作流程分为三个主要阶段：模型加载、视频尺寸设定与提示输入、采样生成与输出。通过 UNet、CLIP、VAE 的协同工作，文本被转化为潜空间表示，再经采样生成高质量图像序列，最终合成为视频。流程紧凑清晰，方便用户快速掌握并拓展应用。

流程序号	流程阶段	工作描述	使用节点
1	模型加载	加载核心模型，包括 UNet、CLIP 文本编码器和 VAE，为生成提供基础。	UNETLoader, CLIPLoader, VAELoader
2	视频尺寸设定	创建潜空间视频容器，设定分辨率、帧数和时长参数。	EmptyMochiLatentVideo
3	提示输入	对正向与负向提示词进行编码，转化为生成条件。	CLIPTextEncode
4	采样生成	使用 KSampler 在潜空间中迭代采样，生成符合提示的潜变量。	KSampler
5	图像解码	将潜变量解码为实际图像帧，形成画面。	VAEDecode
6	视频合成	将图像帧顺序组合为视频序列，可选添加音频。	CreateVideo
7	输出保存	将生成的视频保存到指定目录。	SaveVideo

大模型应用

CLIPTextEncode（Positive）文本语义核心驱动

该节点负责将正向 Prompt 转换为语义嵌入，用于指导视频生成模型理解动作、风格与镜头感。Prompt 内容决定画面的节奏、主体行为以及整体氛围，是整个视频生成过程的语言驱动核心。

节点名称	Prompt 信息	说明
CLIPTextEncode（Positive）	a fox moving quickly in a beautiful winter scenery nature trees sunset tracking camera	将正向 Prompt 文本编码为视频模型可识别的语义嵌入，控制画面内容、动作风格、景别感与环境氛围。

CLIPTextEncode（Negative）负向语义约束

该节点输出负向嵌入，用于抑制低质量画面、不自然细节或错误视觉特征。通过提供负向 Prompt，可以减少畸变、杂色、异常物体等干扰元素，提升视频生成的干净度和一致性。

节点名称	Prompt 信息	说明
CLIPTextEncode（Negative）	（为空）	负向语义编码，用于限制不希望出现的画面元素。当前为空，将使用默认负面约束以稳定视觉质量。

使用方法

该工作流以简洁、线性的方式完成从文本到动态视频的生成。用户首先加载模型与 CLIP 文本编码，再设定视频尺寸参数，随后输入正向和负向 Prompt。正向文本提供画面语义基础，如主体、动作、镜头视角与场景风格；负向文本承担限制作用，抑制不希望的细节偏差。随后系统自动创建空的 Mochi 视频潜变量，结合模型加载的 UNET 权重，通过 KSampler 完成潜空间采样，生成动态影像的潜在序列。VAE 将潜变量解码为可见图像帧，CreateVideo 再将这些帧组装为视频文件。用户只需更换 Prompt 或调整尺寸，即可自动生成对应风格的动态内容。

注意点	说明
正向文案尽量具体	明确主体、动作、场景与风格，提升画面一致性
负向 Prompt 可补充	用于避免畸形、异常景物或画面脏乱
合理设置视频尺寸	过高分辨率会显著增加生成时间
采样步数与 CFG 会影响风格	较高 CFG 会提高语义一致性但降低自由度
输入动作与场景需逻辑统一	避免出现与 Prompt 冲突的画面逻辑问题

应用场景

该工作流能够将简单的文本提示转化为动态视频，适合多种创意与应用领域。无论是 艺术创作、教育演示 ，还是 广告短片、AI 动画原型，都可以通过这一流程快速实现。从提示词到视频仅需数个节点配置，降低了视频生成的技术门槛。

应用场景	使用目标	典型用户	展示内容	实现效果
艺术创作	将文本描述转化为创意短片	数字艺术家 / 插画师	富有表现力的动态画面	快速生成概念视频，辅助创作
教育演示	将抽象概念直观可视化	教师 / 教研人员	教学场景或科普演示	提高课堂趣味性与理解度
广告短片	快速生成广告草案与动态效果	品牌设计师 / 市场人员	产品展示或宣传片	降低制作成本，加速迭代
动画原型	将分镜转化为动画雏形	动画团队 / 独立制作者	角色动作与场景切换	快速测试创意与剧情流畅性
个性化生成	制作定制化短视频内容	普通用户 / 内容创作者	AI 生成的独特视频	增强社交媒体传播力

开发与应用

更多 AIGC 与 ComfyUI工作流相关研究学习内容请查阅：

ComfyUI使用教程、开发指导、资源下载

更多内容桌面应用开发和学习文档请查阅：

AIGC工具平台Tauri+Django环境开发，支持局域网使用
 AIGC工具平台Tauri+Django常见错误与解决办法
 AIGC工具平台Tauri+Django内容生产介绍和使用
 AIGC工具平台Tauri+Django开源ComfyUI项目介绍和使用
 AIGC工具平台Tauri+Django开源git项目介绍和使用