论文简读 | TurboDiffusion: Accelerating Video Diffusion Models by 100–200 Times

论文地址:https://jt-zhang.github.io/files/TurboDiffusion_Technical_Report.pdf

项目地址:https://github.com/thu-ml/TurboDiffusion

发表时间:2025年12月18日

内容由豆包ai总结

本文是由清华大学、生数科技(VIDU)和加州大学伯克利分校联合发表的TurboDiffusion技术报告,该框架实现了视频扩散模型端到端生成速度100-200倍的提升,且能保持视频生成质量,核心通过注意力加速、步数蒸馏、量化等技术结合算法与系统协同优化实现,在多款Wan系列视频扩散模型上的实验验证了其高效性与实用性。

TurboDiffusion与FastVideo相比,尤其是在1.3b模型上效果更优,这表明rCM蒸馏效果优于VSA+DMD蒸馏;同时在推理耗时上,是fastvideo的30~40%左右,表明SageSLA在RTX 5090显卡加速效果比VSA更佳。

摘要

TurboDiffusion是一款视频生成加速框架,在单张RTX 5090 GPU上,对Wan2.2-I2V-A14B-720P、Wan2.1-T2V-1.3B-480P等多款视频扩散模型实现100-200倍的生成速度提升,同时保证视频质量与原模型相当。其加速核心操作包括:

  • 低比特SageAttention
  • 可训练稀疏线性注意力(SLA)的注意力加速方案
  • 基于rCM的高效步数蒸馏
  • 将模型参数和激活量化为8位的W8A8量化(加速线性层并压缩模型)。
    论文还提供了包含模型检查点、训练和推理代码的GitHub仓库,且展示了典型模型的生成延迟对比,如Wan2.1-T2V-1.3B-480P原模型生成5秒视频需184s,TurboDiffusion仅需1.9s。

1 方法

本节从核心技术、训练流程、推理阶段加速细节三个方面,详细阐述了TurboDiffusion的实现方案,是框架实现加速的核心理论与操作基础。

1.1 主要技术

TurboDiffusion融合四种核心技术实现扩散模型加速,各技术相互配合形成叠加加速效果:

  1. 低比特量化注意力加速:采用SageAttention2++变体,实现低比特量化下的注意力计算加速;
  2. 稀疏注意力加速:引入稀疏线性注意力(SLA),其稀疏计算与低比特张量核心加速相正交,可在SageAttention基础上实现累积加速;
  3. 步数蒸馏:使用当前 sota 的扩散蒸馏方法rCM,减少采样步数,且通过模型权重融合,天然继承注意力层面的加速效果;
  4. 线性层量化:采用W8A8量化,将数据类型设为INT8,以128×128为块粒度进行量化,实现线性层加速。

1.2 训练

基于预训练的视频扩散模型,TurboDiffusion采用并行+融合的训练流程,具体步骤为:

  1. 将原模型的全注意力替换为SLA,并对预训练模型微调以适配稀疏性;同时,利用rCM将预训练模型蒸馏为采样步数更少的学生模型;
  2. 将SLA微调与rCM训练得到的参数更新融合,得到单一的加速模型;
  3. 训练过程可灵活使用真实数据或合成数据,详细实现见项目GitHub代码。

1.3 推理

针对经SLA和rCM训练后的模型,TurboDiffusion在推理阶段叠加多重工程优化,进一步降低延迟,具体操作:

  1. 注意力加速:将SLA替换为SageSLA(基于SageAttention的SLA CUDA实现),充分利用硬件算力;
  2. 步数蒸馏落地:将采样步数从原有的100步大幅缩减至3或4步(实践中推荐4步以保证最佳画质);
  3. 线性层量化部署:先将线性层参数以128×128块粒度量化为INT8,推理时将线性层激活值以相同粒度量化为INT8,并利用INT8张量核心完成计算,此举使模型体积压缩约一半,同时提升线性层计算速度;
  4. 其他工程优化:基于Triton或CUDA重新实现LayerNorm、RMSNorm等操作,提升计算效率。

2 评估

本节通过设定标准化的实验环境,从效率和生成质量两方面,在多款Wan系列模型上对TurboDiffusion进行全面评估,并与原模型、FastVideo基线模型对比,验证其优越性。

2.1 实验设置

  1. 评估模型与基线:测试模型为Wan2.2-I2V-A14B-720P、Wan2.1-T2V-1.3B-480P、Wan2.1-T2V-14B-720P、Wan2.1-T2V-14B-480P;基线为Wan模型官方实现(Original)和FastVideo框架,其中FastVideo未提供Wan2.2-A14B-I2V-720P的加速版本,该模型仅对比TurboDiffusion与原模型。
  2. 超参数设置:TurboDiffusion的Top-K比率设为0.1(对应90%注意力稀疏性),采样步数3步,实践推荐Top-K在[0.1,0.15]、采样步数4步以保证最佳画质;FastVideo使用官方默认参数(3步采样、80%注意力稀疏性)。
  3. 硬件环境:主推理实验在单张RTX 5090 GPU上完成,同时在RTX 4090、H100等GPU上也实现了显著加速(加速比略低于RTX 5090)。
  4. 效率评估指标:报告端到端扩散生成延迟,排除文本编码和VAE解码阶段的耗时。

2.2 效率与质量

实验结果表明,TurboDiffusion在实现最高加速效率的同时,能保持与原模型相当的视频生成质量,显著优于FastVideo基线模型,以下为各模型的核心实验数据与结论:

  1. Wan2.2-I2V-A14B-720P :生成5秒视频,原模型延迟4549s,TurboDiffusion仅38s,加速比120×;因包含高低噪声模型切换开销,实测加速比略低,理论上与同量级模型加速比一致,且在各类复杂文本/图像提示下,均能高质量还原场景。对于高难度场景生成能力下降
  2. Wan2.1-T2V-1.3B-480P :生成5秒视频,原模型184s,FastVideo 5.3s,TurboDiffusion 1.9s,加速比97×,在赛博朋克、超现实主义、3D场景等多种风格提示下,画质有损失,且速度远快于FastVideo。不太适用,但优于FastVideo
  3. Wan2.1-T2V-14B-720P :生成5秒视频,原模型4767s,FastVideo 72.6s,TurboDiffusion 24s,加速比199×,是加速效果最优的模型,在写实、游戏、纪录片等风格下均表现优异。存在细微效果下降
  4. Wan2.1-T2V-14B-480P :生成5秒视频,原模型1676s,FastVideo 26.3s,TurboDiffusion 9.9s,加速比170×,在动漫、游戏等场景中,画质与原模型匹配,速度显著领先FastVideo。存在效果下降

此外,论文通过算法与系统协同优化的拆解实验,展示了Wan2.1-T2V-14B-720P的加速过程:从CPU卸载仅1.14×加速,到叠加W8A8量化+融合归一化达33.3×,再叠加rCM达约114×,最终叠加SageSLA实现199×的最终加速,验证了各技术模块的叠加加速效果。

2.3 效果图片

wan2.2-I2V-A14B-720p

画面提示词为第一帧,文本提示词为:"主观视角自拍视频,画面极度混乱且节奏极快。一只戴着墨镜的白猫面无表情地站在冲浪板上,突然冲浪板向侧面猛甩,将猫和相机一同甩入水中;镜头急剧向下俯冲,在下沉过程中被汹涌的气泡、旋转的涡流和模糊的水痕吞噬。阴影逐渐加重,水压波纹扭曲了画面边缘,零散的气泡飞速掠过镜头向上浮起,显示相机仍在持续下沉。随后,白猫以爆发性的速度向上蹬水,拖着镜头穿过翻滚的气泡和亮度迅速提升的水域,阳光重新倾泻而下;相机飞速上升,水流从镜头表面滑落,最终在一阵耀眼的光芒和水花中冲破水面,瞬间恢复为歪斜、慌乱的自拍视角,白猫也随之浮出水面。"

画面提示词为第一帧,文本提示词为:"一辆通体无色、外观粗犷的六轮月球车 ------ 悬架臂裸露在外,配有防滚架框架,轮胎宽大且适配低重力环境 ------ 从左至右滑行进入画面,扬起滚滚月尘,尘雾在真空中缓缓飘散。身着白色宇航服的宇航员迈着轻盈、弹跳式的月面步伐,跃上月球车的开放式底盘。远处,一艘采用垂直推进器下降模式的垂直起降(VTOL)着陆器,悄然降落在灰色的月表之上。天地之上,巨大的极光状等离子体光带在繁星密布的天幕中翻涌波动,将摇曳的绿、蓝、紫色光芒投射在荒芜的月原上,为整个场景镀上一层超凡脱俗的奇幻光晕。"

画面提示为第一帧,文本提示为:"乌玛・瑟曼饰演的碧翠丝・基多在电影感的光影中,稳稳握着她那把锋利如剃刀的武士刀。毫无征兆地,整把金属刀身瞬间失去坚硬质感,刀体如不稳定的液体般颤动。刀身表面彻底失稳 ------ 一块块金属以缓慢的褶皱状下坠脱落,化作银浆细流一滴滴缓缓淌下。片刻之间,这把刀便坍缩成一团毫无形状的金属熔物,棱角尽失,结构全无。浓稠的液态金属从她的手中溢出,紧接着,一片片泛着微光的液膜剥落坠地。她此刻手中仅剩一团颤巍巍、形似水银的液状物,不住地垂落、滴淌。当刀身最后的固态残体消融、碎裂 ,从她指缝间流尽时,她的神情也从沉着戒备转为震惊错愕,陷入手无寸铁、茫然无措的境地。"

画面提示为第一帧,文本提示为:"特写镜头对准一位老水手,他身着饱经风霜的黄色雨衣,坐在沐浴着阳光、轻轻摇晃的双体船甲板上。船身每一次微微起伏,他脸上的光影便悄然变幻。他吸了一口烟斗,烟锅里的火星骤然亮了几分,呼出的一缕青烟随船身的晃动袅袅摇曳、曲折飘散。他的猫卧在身旁,双眼半阖,每当甲板倾斜,猫咪的身体便会顺着本能轻柔地调整姿态。阳光在光洁的木质甲板上跃动闪烁,船下的海面碧波翻涌,映出片片倏忽晃动的粼粼光斑。一对海鸟从头顶滑翔而过,遇风时微微低掠。镜头缓缓向前推近,所有的动静都愈发清晰 ------ 青烟轻颤,猫毛微扬,船身每一次轻晃都伴着甲板的吱呀轻响 ------ 这静谧的瞬间,就此化作海上鲜活灵动的一幕。"

画面提示为第一帧,文本提示为:"雨夜的东京街头,一名身着风衣、手持黑伞的男子步履匆匆,急切地穿行其间,大步踏过水洼,溅起阵阵水花。手持跟拍镜头从侧后方追拍他,画面晃动急促,仿佛拼尽全力才堪堪跟上他的脚步。镜头焦点始终锁定在男子身上,而霓虹招牌因快速移动拖曳出一道道斑斓的焦外光轨。整幕场景透着赛博朋克与黑色电影的氛围感 ------ 神秘、孤寂,又带着一丝焦躁不安。湿滑的路面倒映着绚烂的霓虹光影,雨滴凌厉地划过画面,一层薄雾缓缓飘动;男子迈着坚定的快步奋力前行,周遭的一切都随他的脚步而动。"

wan2.1-T2V-1.3B-480p

一位时髦女子漫步在东京街头,霓虹灯璀璨温暖,城市标识跃动生辉。她身着黑色皮夹克,搭配红色长裙与黑色靴子,手提黑色手提包,戴着墨镜,唇上涂着红色口红。她步伐从容自信,举手投足间尽显从容。湿漉漉的街道在灯光映照下泛着镜面般的光泽,五彩斑斓的霓虹灯在光线下熠熠生辉。行人络绎不绝,熙熙攘攘。

摄像机在纽约某大型博物馆展厅内旋转,环绕着一排排复古电视机,每台电视都播放着不同的节目:1950年代的科幻片、恐怖片、新闻、静电画面,以及1970年代的情景喜剧等。


Wan2.1-T2V-14B-720P


Wan2.1-T2V-14B-480P

3 结论

TurboDiffusion融合低比特注意力(SageAttention)、稀疏线性注意力(SLA)、rCM步数蒸馏、W8A8量化及多项工程优化,实现了视频扩散模型端到端100-200倍的加速,且画质损失可忽略不计。在单张RTX 5090 GPU上,该框架将多款大尺度视频扩散模型的5秒视频生成时间降至1分钟内,大幅提升了高质量视频生成的效率与实用性,解决了传统视频扩散模型生成速度慢的核心痛点。

相关推荐
万里鹏程转瞬至2 小时前
SLA与Flash_attn对比测试
深度学习·aigc
yuzhuanhei3 小时前
基于Claude Code实现MobileNetV3训练记录
人工智能·深度学习
LaughingZhu3 小时前
Product Hunt 每日热榜 | 2026-02-22
人工智能·经验分享·深度学习·神经网络·产品运营
小程故事多_803 小时前
抛弃工具堆砌,基于 LangGraph + 开源生态,打造可自愈的 AI Agent 系统
人工智能·开源·aigc
Niuguangshuo4 小时前
深度学习:激活函数大全
人工智能·深度学习
weixin_448119944 小时前
Datawhale Easy-Vibe 202602 第4次笔记
笔记·深度学习
小雨中_5 小时前
2.1 PaLM 及其变体(PaLM / PaLM 2)
人工智能·深度学习·机器学习·分类·数据挖掘·palm
yunhuibin5 小时前
LeNet、AlexNet、VGGNet、NiN总结
人工智能·python·深度学习·神经网络
忙碌5446 小时前
2026年大语言模型微调实战:从零到一构建专属AI助手
人工智能·深度学习