FramePack：让视频生成更高效、更实用

想要掌握如何将大模型的力量发挥到极致吗？叶梓老师带您深入了解 Llama Factory ------ 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987
想快速掌握自动编程技术吗？叶老师专业培训来啦！这里用Cline把自然语言变代码，再靠DeepSeek生成逻辑严谨、注释清晰的优质代码。叶梓老师视频号上直播分享《用deepseek实现自动编程》限时回放。

视频号（直播分享）：sphuYAMr0pGTk27 抖音号：44185842659

视频生成领域一直面临着两大挑战：遗忘问题和漂移问题。遗忘问题指的是模型在生成过程中难以记住早期内容，导致时间连贯性受损；而漂移问题则是指随着生成时间的延长，视觉质量会因累积误差而逐渐下降。为了解决这些问题，斯坦福大学的研究团队提出了一种名为FramePack的新技术。

核心技术：帧压缩与抗漂移采样

FramePack的核心在于对输入帧的高效压缩。它通过改变Transformer的Patchify（分块）核大小，对不同重要性的帧进行不同程度的压缩。例如，对于一个480p的帧，使用不同的Patchify核可以将其从1536个token压缩到192个token。这种压缩方式不仅减少了显存占用，还让模型能够根据帧的重要性分配不同的资源，从而实现高效的计算。

FramePack：颠覆视频创作

此外，FramePack还引入了抗漂移采样技术。传统的逐帧预测模型在生成过程中容易出现漂移问题，导致视频质量下降。FramePack通过引入双向记忆法，让模型在生成当前帧时既能参考最近的帧，也能回溯到初始帧的核心特征，从而避免了漂移。这种双向采样方法不仅提高了视频的质量，还使得模型能够生成更长的视频序列。

实验结果与优势

实验结果表明，FramePack在多个方面都表现出色。它不仅能够处理大量的帧，还能在普通的硬件上实现高效的视频生成。例如，即使在只有6GB显存的笔记本电脑GPU上，FramePack也能使用13B参数模型处理大量帧。此外，FramePack还支持与图像扩散训练相似的批量大小，使得训练过程更加高效。

FramePack的主要优势包括：

低硬件要求：支持Nvidia RTX 30XX、40XX、50XX系列GPU，最低只需6GB显存。
长视频生成：能够在小显存的GPU上生成长达60秒（30fps，1800帧）的视频。
实时反馈：由于是逐帧生成，用户可以在整个视频生成完成之前看到生成进度。

项目页面：FramePack

论文：https://lllyasviel.github.io/frame_pack_gitpage/pack.pdf

代码：https://github.com/lllyasviel/FramePack?tab=readme-ov-file