字节:14B模型实时生成长视频

📖标题:Helios: Real Real-Time Long Video Generation Model

🌐来源:arXiv, 2603.04379v1

🌟摘要

我们介绍了Helios,这是第一款14B视频生成模型,在单个NVIDIA H100 GPU上以19.5 FPS的速度运行,支持分钟级生成,同时匹配强大基线的质量。我们在三个关键维度上取得了突破:(1)对长视频漂移的稳健性,无需常用的反漂移启发式方法,如自强迫、错误库或关键帧采样;(2)无需标准加速技术(如KV缓存、稀疏/线性注意力或量化)的实时生成;(3)没有并行性或分片框架的训练,支持image-diffusion-scale批量大小,同时在80 GB GPU内存内最多安装四个14B模型。具体来说,Helios是一个14B的自回归扩散模型,具有统一的输入表示,原生支持T2V、I2V和V2V任务。为了缓解长视频生成中的漂移,我们描述了典型的故障模式,并提出了简单而有效的训练策略,在训练过程中明确模拟漂移,同时从源头上消除重复运动。为了提高效率,我们大量压缩历史和嘈杂的上下文,减少采样步骤的数量,产生与1.3B视频生成模型相当或更低的计算成本。此外,我们引入了infrastructure-level优化,加速了推理和训练,同时减少了内存消耗。大量实验表明,Helios在短视频和长视频生成方面始终优于先前的方法。我们计划发布代码、基础模型和提炼模型,以支持社区的进一步开发。

🔔文章简介

🔸研究问题:如何在单张H100 GPU上实现高质量、高帧率、分钟级长度的视频自回归生成,同时避免 drifting、不依赖KV缓存与模型蒸馏等常规加速手段?

🔸主要贡献:论文提出Helios------首个14B参数量、19.5 FPS端到端推理、支持T2V/I2V/V2V统一架构的长视频生成模型,无需自强制、误差库或量化等抗漂移与加速技巧。

📝重点思路

🔸历史-噪声联合注入:将历史视频块与当前噪声块拼接为统一输入,通过历史内容的零值/单帧/多帧模式自动识别任务类型(纯文本→视频、图像→视频、视频→视频),保留预训练模型的双向建模能力。

🔸引导式注意力机制:历史部分视为干净锚点,固定其时间步为0;在自注意力中对历史键向量进行头级别动态缩放,使其精准引导未来帧生成;文本交叉注意力仅作用于噪声部分,避免语义重复注入。

🔸三重轻量抗漂移:用相对位置编码替代绝对时间索引,消除周期性导致的循环重置;始终保留首帧作为全局视觉锚点,稳定色彩与分布;训练时对每帧历史独立施加曝光调整、噪声添加或缩放扰动,提前模拟真实推理误差。

🔸分层历史压缩:将历史视频划分为近、中、远三期,分别用不同大小的时空卷积核压缩,越远的历史压缩越强,使总token数恒定,显著降低显存与计算开销。

🔸粗到细多尺度采样:将去噪过程分为低/中/高三阶段,先在小分辨率下构建整体结构,再逐级上采样细化细节,大幅减少高分辨率下的计算量。

🔸三级渐进式蒸馏:以自研的高质量长视频教师模型为基准,仅用单段生成+分阶段反向模拟+动态噪声调度+对抗增强,将50步采样压缩至3步,且全程无需真实数据回滚。

🔎分析总结

🔸Helios在1440帧(1分钟)视频上仍保持强时序一致性,无明显位置/颜色/恢复漂移,显著优于Krea-RealTime-14B等基线。

🔸端到端19.5 FPS超越多数1.3B蒸馏模型,且未使用KV-cache、稀疏注意力、量化等任何标准加速技术。

🔸单卡80GB显存可训练四套14B模型,归功于Patchification与Pyramid采样带来的token量下降(历史减8×,噪声减2.29×)及Cache Grad等内存优化。

🔸HeliosBench涵盖240个LLM精炼提示与四档时长,验证其在短/中/长视频上全面领先现有方法。

💡个人观点

论文拒绝"打补丁式优化":不靠蒸馏降步数、不靠掩码改范式、不靠分片绕瓶颈,而是从建模本质(历史注入方式)、训练策略(漂移前置模拟)、计算结构(多尺度token流)三方面协同重构。

🧩附录


相关推荐
IT_陈寒2 小时前
JavaScript开发者必知的5个性能杀手,你踩了几个坑?
前端·人工智能·后端
Shining05962 小时前
Triton & 九齿系列《Triton 练气术》
开发语言·人工智能·python·学习·其他·infinitensor
东离与糖宝2 小时前
GraalVM+Project Leyden实战:Spring Boot应用原生编译,Serverless冷启动自由
java·人工智能
数字供应链安全产品选型2 小时前
面向AI风险治理,悬镜原创多模态AIST新品问境AIST正式发布,提升AI自身安全!
人工智能·自然语言处理
AIwenIPgeolocation2 小时前
基于昇腾算力+鲲鹏服务器实现国产化环境的OpenClaw高效应用,解锁AI自动化新体验
服务器·人工智能·自动化
星爷AG I3 小时前
14-1 运动组织(AGI基础理论)
人工智能·agi
Volunteer Technology3 小时前
一键部署OpenClaw(阿里云和京东云)
人工智能·chatgpt·transformer
后端小肥肠3 小时前
OpenClaw实战|用ClaudeSkill漫画工厂,实现公众号热门赛道漫画全自动生产
人工智能·aigc·agent
飞Link3 小时前
别再被异常数据骗了:深度解析 TSTD 异常检测中的重构模型(AutoEncoder 实战)
人工智能·算法·重构·回归