Helios:14B实时长视频生成模型

Helios是由北京大学团队开发的14B参数实时长视频生成模型,具有突破性的性能表现。该模型可在单卡H100 GPU上实现19.5 FPS的生成速度,仅需约6GB显存即可运行,并能生成分钟级高质量视频。Helios的创新之处在于无需传统防漂移策略和标准加速技术即可实现实时推理,通过三阶段训练流程(Base-Mid-Distilled)逐步优化模型效率。提供多种部署方式,支持低显存模式和多GPU并行推理,并兼容Diffusers框架。其核心技术包括统一历史注入、简易防漂移和金字塔预测校正等创新方法,使模型在保持高质量输出的同时大幅提升生成效率。

一、Helios概述

Helios 是由北京大学 YuanGroup 团队开发的实时长视频生成模型,是一个突破性的14B参数视频生成模型。它的核心亮点是:

"14B 实时长视频生成模型可以比 1.3B 模型更便宜、更快,同时保持更强的生成能力"

核心性能指标

指标 数值
生成速度 单卡 H100 GPU 上 19.5 FPS
显存占用 使用 Group Offloading 后仅需 ~6GB VRAM
视频长度 可生成分钟级高质量视频
参数量 14B

Helios突破点

  1. 无需传统防漂移策略(如 self-forcing、error-banks、keyframe sampling 等)即可生成长视频
  2. 无需标准加速技术(如 KV-cache、causal masking、sparse attention 等)即可实现实时推理
  3. 优化训练和推理吞吐量,80GB 显存可容纳 4 个 14B 模型

二、部署安装

部署Helios的环境准备

bash 复制代码
# 0. 克隆仓库
git clone --depth=1 https://github.com/PKU-YuanGroup/Helios.git
cd Helios

# 1. 创建 conda 环境
conda create -n helios python=3.11.2
conda activate helios

# 2. 安装 PyTorch(根据CUDA版本选择)
# CUDA 12.6
pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.10.0 --index-url https://download.pytorch.org/whl/cu126

# 3. 安装依赖
bash install.sh

Helios模型

模型版本 特点 适用场景
Helios-Base 最佳质量,v-prediction,标准CFG 追求高质量输出
Helios-Mid 中间检查点,CFG-Zero* 过渡版本
Helios-Distilled 最佳效率,x0-prediction,仅需3步采样 追求速度

使用 huggingface-cli 下载:

bash 复制代码
pip install "huggingface_hub[cli]"
huggingface-cli download BestWishYSH/Helios-Base --local-dir BestWishYSH/Helios-Base

使用 modelscope 下载(国内用户推荐):

bash 复制代码
pip install modelscope
modelscope download BestWishYSH/Helios-Base --local_dir BestWishYSH/Helios-Base

三、使用方法

基础推理

Helios 采用自回归方式 ,每块生成 33 帧。num_frames 应设为 33 的倍数。

bash 复制代码
cd scripts/inference

# 运行不同模型的推理脚本
bash helios-base_t2v.sh      # 文生视频
bash helios-base_i2v.sh      # 图生视频
bash helios-base_v2v.sh      # 视频生视频

低显存模式(~6GB VRAM)

bash 复制代码
CUDA_VISIBLE_DEVICES=0 python infer_helios.py \
    --base_model_path "BestWishYsh/Helios-Distilled" \
    --prompt "A vibrant tropical fish swimming..." \
    --num_frames 240 \
    --enable_low_vram_mode \
    --group_offloading_type "leaf_level"

多GPU并行推理

bash 复制代码
CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node 4 infer_helios.py \
    --enable_parallelism \
    --cp_backend "ulysses" \
    --base_model_path "BestWishYsh/Helios-Base" \
    --num_frames 99

支持的后端:ringulyssesunifiedulysses_anything

使用 Diffusers管道

python 复制代码
import torch
from diffusers import AutoModel, HeliosPyramidPipeline
from diffusers.utils import export_to_video

vae = AutoModel.from_pretrained("BestWishYsh/Helios-Distilled", subfolder="vae", torch_dtype=torch.float32)

pipeline = HeliosPyramidPipeline.from_pretrained(
    "BestWishYsh/Helios-Distilled",
    vae=vae,
    torch_dtype=torch.bfloat16
)
pipeline.to("cuda")

output = pipeline(
    prompt="A vibrant tropical fish swimming...",
    negative_prompt="Bright tones, overexposed, static...",
    num_frames=240,
    pyramid_num_inference_steps_list=[2, 2, 2],
    guidance_scale=1.0,
    is_amplify_first_chunk=True,
).frames[0]

export_to_video(output, "output.mp4", fps=24)

帧数与视频时长对照

num_frames 调整后帧数 24 FPS 16 FPS
1449 1452 (33×44) ~60秒 ~90秒
720 726 (33×22) ~30秒 ~45秒
240 264 (33×8) ~11秒 ~16秒
129 132 (33×4) ~5.5秒 ~8秒
81 99 (33×3) ~4秒 ~6秒

四、实现逻辑

Helios逻辑背景

传统长视频生成面临两大难题:

  1. 漂移问题:生成长视频时,画面容易逐渐失真、不一致
  2. 速度问题:高质量视频生成通常很慢,无法实时

现有方案通常用复杂的技术(如 KV-cache、特殊注意力机制)来加速,但 Helios 证明了不需要这些也能实现实时生成

核心技术原理(三阶段训练流程)

第一阶段:Base(基础适配)
  • 目标:将双向预训练模型转换为自回归生成器
  • 关键技术
    • Unified History Injection(统一历史注入):让模型记住之前生成的内容
    • Easy Anti-Drifting(简易防漂移):轻量级的稳定性保证
    • Multi-Term Memory Patchification(多术语记忆分块):高效管理长序列记忆
第二阶段:Mid(令牌压缩)
  • 目标:减少计算量
  • 关键技术
    • Pyramid Unified Predictor Corrector(金字塔统一预测校正器)
    • 激进地减少噪声令牌数量,降低整体计算负担
第三阶段:Distilled(蒸馏加速)
  • 目标:极致加速
  • 关键技术
    • Adversarial Hierarchical Distillation(对抗层次蒸馏)
    • 将采样步数从 50 步减少到 3 步
    • 消除对分类器自由引导(CFG)的依赖

Helios的优势

可以把 Helios 想象成一个视频画家

  1. 传统方法:画家每画一帧都要回头看前面所有帧,还要用各种辅助工具(缓存、特殊技巧)来保持画面一致,很慢

  2. Helios 方法

    • 画家有一个智能记忆本(统一历史注入),只记录关键信息
    • 画家学会了快速草图→精修的工作流(金字塔预测校正)
    • 经过特训后,画家可以3笔完成一幅画(蒸馏到3步采样)
    • 不需要额外辅助工具,靠自身能力就能保持画面一致

Helios的创新点

创新点 说明
无需防漂移策略 不依赖 self-forcing、keyframe sampling 等传统方法
无需加速技术 不依赖 KV-cache、稀疏注意力等,原生实时
三阶段渐进训练 Base→Mid→Distilled,逐步优化效率
多平台支持 支持 GPU、Ascend NPU、Diffusers、vLLM、SGLang
低显存运行 Group Offloading 技术使 6GB 显存即可运行
相关推荐
2501_943124054 小时前
7×24小时无人值守:矩阵跃动龙虾机器人+GEO,AI流量闭环效率实测报告
人工智能·矩阵·机器人
renhongxia14 小时前
唤醒过去:利用记忆模拟机器人流动唤醒效应
人工智能·微服务·架构·机器人·知识图谱
Elastic 中国社区官方博客4 小时前
Serverless 中用于负载均衡的 Elasticsearch 副本
大数据·运维·人工智能·elasticsearch·搜索引擎·云原生·serverless
ryrhhhh4 小时前
从0到1搭建AI流量闭环:矩阵跃动龙虾机器人+GEO的技术选型与实操指南
人工智能·矩阵·机器人
0xDevNull4 小时前
Java 视频在线播放功能案例
java·开发语言·音视频
EasyGBS4 小时前
国密GB35114协议+国标GB28181平台EasyGBS双重保障筑牢安防视频安全防线
安全·https·音视频
XiaoLeisj4 小时前
Android 媒体能力实战:从 Media3 音视频播放到 CameraX 拍照与视频录制
android·音视频·媒体·android jetpack
云蝠呼叫大模型联络中心4 小时前
金融行业大模型呼叫系统架构与API集成案例
人工智能·金融·系统架构·多智能体协同·voiceagent·云蝠智能·ai agent技术
Tony Bai4 小时前
【AI 智能体时代的软件工程】11 双态工作台:为何我们需要为 AI 重构 IDE?
ide·人工智能·重构