课程 6:图生视频首次运行流程

课程 6:图生视频首次运行流程

1. 本节目标

记录第一次使用 Sulphur-2 GGUF + LTX-2.3 工作流进行图生视频的完整过程,包括输入图片、参数、prompt 和运行观察方法。

2. 输入图片准备

本次首测使用:

text 复制代码
768 x 432

这是一个适合横屏图生视频测试的低负载分辨率。

推荐首测尺寸:

方向 推荐尺寸
横屏 768 x 432
竖屏 432 x 768
方图 640 x 640
更保守 640 x 384

注意:

  • 宽高最好能被 32 整除。
  • 首测不要使用过高分辨率。
  • 两人合照可以测试,但复杂动作成功率低于单人图。

3. 外层参数设置

推荐首次测试参数:

text 复制代码
width = 768
height = 432
duration = 3
batch = 1
fps = 默认值,通常 24 或 25

首次测试目标是:

text 复制代码
确认工作流能跑通
确认能输出视频
确认模型没有报错

不是追求最终质量。

4. Prompt 示例

本次测试"两个人向镜头打招呼",推荐英文 prompt:

text 复制代码
A smiling couple looks at the camera and waves hello together. They gently raise their hands and wave naturally. Subtle head movement, slight body motion, warm friendly expressions, natural realistic motion, steady camera.

简洁版本:

text 复制代码
A couple faces the camera and waves hello with friendly smiles. Natural hand waving, subtle body movement, gentle motion, steady camera, realistic video.

5. 为什么建议英文 prompt

LTX / Sulphur / 10Eros 这类视频模型通常对英文动作描述更稳定。

图生视频 prompt 的重点不是重复描述"图片里有什么",而是描述:

text 复制代码
怎么动
镜头怎么动
表情怎么变化
动作幅度多大

6. 点击运行

确认:

  • first_frame 已载入图片
  • 外层模型 4 项已选择
  • 内部 Unet Loader (GGUF) 已选中 GGUF 模型
  • Unet Loader (GGUF) 已接入 LoRA加载器(仅模型)

然后点击:

text 复制代码
Queue Prompt

7. 运行过程中怎么看状态

7.1 看 ComfyUI 页面

运行时当前节点通常会高亮。常见耗时节点:

text 复制代码
自定义采样器(高级)

如果停留在采样器很久,通常是正常现象。

7.2 看终端

终端可以看到:

  • 模型加载情况
  • 节点执行情况
  • 是否 OOM
  • 是否缺模型
  • 是否节点类型不匹配

排错时终端最后几行最重要。

7.3 看 GPU 状态

可以另开终端观察:

bash 复制代码
watch -n 1 nvidia-smi

如果 GPU 有占用,并且终端没有报错,通常说明还在跑。

8. 运行结果判断

成功情况

如果最终输出视频,说明:

  • LTXVideo 节点可用
  • GGUF 主模型接入成功
  • 文本编码器可用
  • VAE / latent 相关节点可用
  • 图生视频流程完整跑通

慢但不报错

正常。

视频生成尤其是两阶段采样会非常慢。

直接报错

优先看课程 7。

9. 适合首测的动作

推荐:

text 复制代码
挥手
微笑
点头
轻微转头
轻微身体晃动
镜头缓慢推进

不推荐:

text 复制代码
脱衣
跳舞
奔跑
拥抱
打斗
双手复杂操作物体
多人复杂交互

10. 本节结论

首次图生视频应该使用低分辨率、短时长、简单动作。

本次成功输出视频,说明主工作流已经跑通。后续重点转向:

text 复制代码
速度优化
工作流精简
prompt 调试
模型对比
相关推荐
IT_陈寒19 小时前
SpringBoot自动配置的坑,我的API突然就404了
前端·人工智能·后端
笃行35019 小时前
从零到上线:用 EdgeOne Makers + CodeBuddy 搭一个「对账核对员」AI Agent
人工智能
用户68563262086920 小时前
Claude Code 乱猜字段名?我给它写了一个"数据库查询约束 Skill"
人工智能
你_好20 小时前
# 给你的产品嵌入一个「会操作界面的 AI 助手」
人工智能
ShallWeL20 小时前
【机器学习】(3)—— 线性回归:梯度下降
人工智能·机器学习
陈广亮20 小时前
Prompt、Context、Harness、Agentic:LLM 应用四层嵌套结构,搞清自己卡在哪一层
人工智能
刺猬的温驯20 小时前
Flow Matching 训练的输入分布问题:从 VAE Latent 统计性质到归一化工程实践——以 VoxFlash-TTS 为例
人工智能·语音合成·tts
机器之心20 小时前
近80年后,埃尔德什经典「拉姆齐数下界」,被三位中国学者首次指数级改进
人工智能·openai
机器之心20 小时前
Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind?
人工智能·openai
美团技术团队21 小时前
LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆
人工智能·算法