课程 6：图生视频首次运行流程

1. 本节目标

记录第一次使用 Sulphur-2 GGUF + LTX-2.3 工作流进行图生视频的完整过程，包括输入图片、参数、prompt 和运行观察方法。

2. 输入图片准备

本次首测使用：

text 复制代码

768 x 432

这是一个适合横屏图生视频测试的低负载分辨率。

推荐首测尺寸：

方向	推荐尺寸
横屏	`768 x 432`
竖屏	`432 x 768`
方图	`640 x 640`
更保守	`640 x 384`

注意：

宽高最好能被 32 整除。
首测不要使用过高分辨率。
两人合照可以测试，但复杂动作成功率低于单人图。

3. 外层参数设置

推荐首次测试参数：

text 复制代码

width = 768
height = 432
duration = 3
batch = 1
fps = 默认值，通常 24 或 25

首次测试目标是：

text 复制代码

确认工作流能跑通
确认能输出视频
确认模型没有报错

不是追求最终质量。

4. Prompt 示例

本次测试"两个人向镜头打招呼"，推荐英文 prompt：

text 复制代码

A smiling couple looks at the camera and waves hello together. They gently raise their hands and wave naturally. Subtle head movement, slight body motion, warm friendly expressions, natural realistic motion, steady camera.

简洁版本：

text 复制代码

A couple faces the camera and waves hello with friendly smiles. Natural hand waving, subtle body movement, gentle motion, steady camera, realistic video.

5. 为什么建议英文 prompt

LTX / Sulphur / 10Eros 这类视频模型通常对英文动作描述更稳定。

图生视频 prompt 的重点不是重复描述"图片里有什么"，而是描述：

text 复制代码

怎么动
镜头怎么动
表情怎么变化
动作幅度多大

6. 点击运行

确认：

first_frame 已载入图片
外层模型 4 项已选择
内部 Unet Loader (GGUF) 已选中 GGUF 模型
Unet Loader (GGUF) 已接入 LoRA加载器（仅模型）

然后点击：

text 复制代码

Queue Prompt

7. 运行过程中怎么看状态

7.1 看 ComfyUI 页面

运行时当前节点通常会高亮。常见耗时节点：

text 复制代码

自定义采样器（高级）

如果停留在采样器很久，通常是正常现象。

7.2 看终端

终端可以看到：

模型加载情况
节点执行情况
是否 OOM
是否缺模型
是否节点类型不匹配

排错时终端最后几行最重要。

7.3 看 GPU 状态

可以另开终端观察：

bash 复制代码

watch -n 1 nvidia-smi

如果 GPU 有占用，并且终端没有报错，通常说明还在跑。

8. 运行结果判断

成功情况

如果最终输出视频，说明：

LTXVideo 节点可用
GGUF 主模型接入成功
文本编码器可用
VAE / latent 相关节点可用
图生视频流程完整跑通

慢但不报错

正常。

视频生成尤其是两阶段采样会非常慢。

直接报错

优先看课程 7。

9. 适合首测的动作

10. 本节结论

首次图生视频应该使用低分辨率、短时长、简单动作。

本次成功输出视频，说明主工作流已经跑通。后续重点转向：

text 复制代码

速度优化
工作流精简
prompt 调试
模型对比