课程 9:模型测试记录与 Prompt 策略

课程 9:模型测试记录与 Prompt 策略

1. 本节目标

记录 Sulphur-2、10Eros 等 GGUF 视频模型的测试思路,以及图生视频 prompt 的写法和动作难度判断。

2. 本次测试模型

2.1 Sulphur-2 GGUF

已测试:

text 复制代码
sulphur_dev-Q3_K_M.gguf

路径:

text 复制代码
models/unet/sulphur_dev-Q3_K_M.gguf

加载节点:

text 复制代码
Unet Loader (GGUF)

特点:

  • 能跑通 LTX-2.3 图生视频工作流。
  • Q3_K_M 文件体量适中。
  • 在低显存环境中比官方完整 fp8 / bf16 更现实。
  • 复杂人体动作仍然容易不协调。

2.2 LTX2.3-10Eros-GGUF

可选模型:

text 复制代码
10Eros_v1-Q3_K_M.gguf
10Eros_v1-Q3_K_S.gguf

下载命令:

bash 复制代码
cd /home/wangjian/project/ComfyUI/models/unet

hf download vantagewithai/LTX2.3-10Eros-GGUF \
  10Eros_v1-Q3_K_M.gguf \
  --local-dir .

更保守版本:

bash 复制代码
cd /home/wangjian/project/ComfyUI/models/unet

hf download vantagewithai/LTX2.3-10Eros-GGUF \
  10Eros_v1-Q3_K_S.gguf \
  --local-dir .

切换方式:

Unet Loader (GGUF) 中把:

text 复制代码
sulphur_dev-Q3_K_M.gguf

换成:

text 复制代码
10Eros_v1-Q3_K_M.gguf

3. 图生视频 Prompt 写法原则

图生视频中,输入图片已经决定了主体外观。

Prompt 的重点应放在:

text 复制代码
动作
表情
镜头
运动幅度
画面稳定性

而不是长篇描述人物长相。

4. 推荐 Prompt 模板

4.1 两人向镜头打招呼

text 复制代码
A smiling couple looks at the camera and waves hello together. They gently raise their hands and wave naturally. Subtle head movement, slight body motion, warm friendly expressions, natural realistic motion, steady camera.

4.2 两人轻微互动

text 复制代码
The couple gently turns toward each other and smiles. Subtle head movement, natural body motion, warm expressions, steady camera, realistic video.

4.3 单人自然动作

text 复制代码
The person looks at the camera and smiles softly. Natural head movement, subtle body motion, gentle breathing, realistic motion, steady camera.

4.4 风景或静物轻运动

text 复制代码
Subtle motion in the scene, gentle camera movement, natural animation, cinematic atmosphere, steady shot.

5. 动作难度分级

5.1 稳定可测动作

适合首测:

text 复制代码
微笑
点头
轻微转头
朝镜头挥手
头发轻微飘动
身体轻微移动
镜头缓慢推进

5.2 勉强可试动作

可能成功,但需要多次尝试:

text 复制代码
整理头发
轻轻靠近
轻微拥抱
轻轻抬手
转身一点点
拿起简单物体

5.3 高概率翻车动作

不建议作为工作流测试动作:

text 复制代码
脱衣
跳舞
奔跑
打斗
大幅度转身
多人复杂互动
双手抓取和拉扯衣物
手和物体复杂接触

6. 为什么复杂动作会怪

例如"人物脱掉上衣"容易出现:

text 复制代码
手臂僵直
衣服自己消失
衣服滑掉但手没动
身体和衣物关系不对
双人同框时肢体互相干扰

这不是工作流错误,而是当前 I2V 模型的典型短板。

本质原因:

text 复制代码
模型能让画面状态变化
但不一定能正确模拟动作过程

它更擅长:

text 复制代码
轻动作
表情变化
镜头运动
小幅姿态变化

不擅长:

text 复制代码
人体骨骼约束
手部精细动作
衣物物理交互
复杂遮挡关系
多人同步动作

7. 双人图注意事项

双人图比单人图更容易出现:

text 复制代码
肢体混淆
手臂数量异常
动作串扰
一个人的动作影响另一个人
脸部稳定性下降

首测建议:

text 复制代码
两人一起挥手
两人一起微笑
两人轻微转头

不要先测试复杂交互。

8. 模型选择建议

在 8GB 级别显存环境中,优先尝试:

text 复制代码
Q3_K_S
Q3_K_M

谨慎尝试:

text 复制代码
Q4_K_S
Q4_K_M

不建议优先尝试:

text 复制代码
Q5
Q6
Q8
bf16
完整 fp8 大模型

原因:

  • 文件更大
  • 显存压力更高
  • 速度更慢
  • 低显存环境下可能频繁 offload

9. 测试记录模板

后续测试新模型时,可以按下面格式记录:

text 复制代码
模型名称:
量化版本:
文件大小:
分辨率:
duration:
是否开启 High Resolution:
Prompt:
生成耗时:
是否成功:
人物稳定性:
手部稳定性:
动作自然度:
主要问题:
是否值得保留:

10. 本节结论

图生视频的成功率和 prompt、动作难度、输入图复杂度高度相关。

建议测试顺序:

text 复制代码
单人简单动作
→ 双人简单动作
→ 单人中等动作
→ 双人中等动作
→ 谨慎尝试复杂动作

不要用"脱衣、跳舞、奔跑"等复杂动作来判断工作流是否正常。

相关推荐
小和尚同志6 小时前
深入使用 skill-creator:结合真实生产级实践
人工智能·aigc
DevSecOps选型指南6 小时前
安全419专访悬镜安全 | 穿越周期在 AI 浪潮中定义数字供应链安全新范式
人工智能
沪漂阿龙6 小时前
面试题详解:GraphRAG 全面解析——知识图谱增强 RAG、Local Search、Global Search、社区摘要、工程落地与评估指标一次讲透
人工智能·知识图谱
WangN26 小时前
Unitree RL Lab 学习笔记【通识】
人工智能·机器学习
haina20196 小时前
海纳AI亮相《科创中国》,解码招聘“智”变之路
人工智能·ai面试·ai招聘
星寂樱易李7 小时前
iperf3 + Python-- 网络带宽、网速、网络稳定性
开发语言·网络·python
abigriver7 小时前
打造 Linux 离线大模型级语音输入法:Whisper.cpp + 3090 显卡加速与 Rime 中英混输终极调优指南
linux·运维·whisper
阿星AI工作室7 小时前
刘润年中大课笔记:一句话说清AI落地之战的本质
大数据·人工智能·创业创新·商业
wangqiaowq7 小时前
windows下nginx的安装
linux·服务器·前端