课程 6:图生视频首次运行流程
1. 本节目标
记录第一次使用 Sulphur-2 GGUF + LTX-2.3 工作流进行图生视频的完整过程,包括输入图片、参数、prompt 和运行观察方法。
2. 输入图片准备
本次首测使用:
text
768 x 432
这是一个适合横屏图生视频测试的低负载分辨率。
推荐首测尺寸:
| 方向 | 推荐尺寸 |
|---|---|
| 横屏 | 768 x 432 |
| 竖屏 | 432 x 768 |
| 方图 | 640 x 640 |
| 更保守 | 640 x 384 |
注意:
- 宽高最好能被 32 整除。
- 首测不要使用过高分辨率。
- 两人合照可以测试,但复杂动作成功率低于单人图。
3. 外层参数设置
推荐首次测试参数:
text
width = 768
height = 432
duration = 3
batch = 1
fps = 默认值,通常 24 或 25
首次测试目标是:
text
确认工作流能跑通
确认能输出视频
确认模型没有报错
不是追求最终质量。
4. Prompt 示例
本次测试"两个人向镜头打招呼",推荐英文 prompt:
text
A smiling couple looks at the camera and waves hello together. They gently raise their hands and wave naturally. Subtle head movement, slight body motion, warm friendly expressions, natural realistic motion, steady camera.
简洁版本:
text
A couple faces the camera and waves hello with friendly smiles. Natural hand waving, subtle body movement, gentle motion, steady camera, realistic video.
5. 为什么建议英文 prompt
LTX / Sulphur / 10Eros 这类视频模型通常对英文动作描述更稳定。
图生视频 prompt 的重点不是重复描述"图片里有什么",而是描述:
text
怎么动
镜头怎么动
表情怎么变化
动作幅度多大
6. 点击运行
确认:
first_frame已载入图片- 外层模型 4 项已选择
- 内部
Unet Loader (GGUF)已选中 GGUF 模型 Unet Loader (GGUF)已接入LoRA加载器(仅模型)
然后点击:
text
Queue Prompt
7. 运行过程中怎么看状态
7.1 看 ComfyUI 页面
运行时当前节点通常会高亮。常见耗时节点:
text
自定义采样器(高级)
如果停留在采样器很久,通常是正常现象。
7.2 看终端
终端可以看到:
- 模型加载情况
- 节点执行情况
- 是否 OOM
- 是否缺模型
- 是否节点类型不匹配
排错时终端最后几行最重要。
7.3 看 GPU 状态
可以另开终端观察:
bash
watch -n 1 nvidia-smi
如果 GPU 有占用,并且终端没有报错,通常说明还在跑。
8. 运行结果判断
成功情况
如果最终输出视频,说明:
- LTXVideo 节点可用
- GGUF 主模型接入成功
- 文本编码器可用
- VAE / latent 相关节点可用
- 图生视频流程完整跑通
慢但不报错
正常。
视频生成尤其是两阶段采样会非常慢。
直接报错
优先看课程 7。
9. 适合首测的动作
推荐:
text
挥手
微笑
点头
轻微转头
轻微身体晃动
镜头缓慢推进
不推荐:
text
脱衣
跳舞
奔跑
拥抱
打斗
双手复杂操作物体
多人复杂交互
10. 本节结论
首次图生视频应该使用低分辨率、短时长、简单动作。
本次成功输出视频,说明主工作流已经跑通。后续重点转向:
text
速度优化
工作流精简
prompt 调试
模型对比