Helios:14B实时长视频生成模型

Helios是由北京大学团队开发的14B参数实时长视频生成模型,具有突破性的性能表现。该模型可在单卡H100 GPU上实现19.5 FPS的生成速度,仅需约6GB显存即可运行,并能生成分钟级高质量视频。Helios的创新之处在于无需传统防漂移策略和标准加速技术即可实现实时推理,通过三阶段训练流程(Base-Mid-Distilled)逐步优化模型效率。提供多种部署方式,支持低显存模式和多GPU并行推理,并兼容Diffusers框架。其核心技术包括统一历史注入、简易防漂移和金字塔预测校正等创新方法,使模型在保持高质量输出的同时大幅提升生成效率。

一、Helios概述

Helios 是由北京大学 YuanGroup 团队开发的实时长视频生成模型,是一个突破性的14B参数视频生成模型。它的核心亮点是:

"14B 实时长视频生成模型可以比 1.3B 模型更便宜、更快,同时保持更强的生成能力"

核心性能指标

指标 数值
生成速度 单卡 H100 GPU 上 19.5 FPS
显存占用 使用 Group Offloading 后仅需 ~6GB VRAM
视频长度 可生成分钟级高质量视频
参数量 14B

Helios突破点

  1. 无需传统防漂移策略(如 self-forcing、error-banks、keyframe sampling 等)即可生成长视频
  2. 无需标准加速技术(如 KV-cache、causal masking、sparse attention 等)即可实现实时推理
  3. 优化训练和推理吞吐量,80GB 显存可容纳 4 个 14B 模型

二、部署安装

部署Helios的环境准备

bash 复制代码
# 0. 克隆仓库
git clone --depth=1 https://github.com/PKU-YuanGroup/Helios.git
cd Helios

# 1. 创建 conda 环境
conda create -n helios python=3.11.2
conda activate helios

# 2. 安装 PyTorch(根据CUDA版本选择)
# CUDA 12.6
pip install torch==2.10.0 torchvision==0.25.0 torchaudio==2.10.0 --index-url https://download.pytorch.org/whl/cu126

# 3. 安装依赖
bash install.sh

Helios模型

模型版本 特点 适用场景
Helios-Base 最佳质量,v-prediction,标准CFG 追求高质量输出
Helios-Mid 中间检查点,CFG-Zero* 过渡版本
Helios-Distilled 最佳效率,x0-prediction,仅需3步采样 追求速度

使用 huggingface-cli 下载:

bash 复制代码
pip install "huggingface_hub[cli]"
huggingface-cli download BestWishYSH/Helios-Base --local-dir BestWishYSH/Helios-Base

使用 modelscope 下载(国内用户推荐):

bash 复制代码
pip install modelscope
modelscope download BestWishYSH/Helios-Base --local_dir BestWishYSH/Helios-Base

三、使用方法

基础推理

Helios 采用自回归方式 ,每块生成 33 帧。num_frames 应设为 33 的倍数。

bash 复制代码
cd scripts/inference

# 运行不同模型的推理脚本
bash helios-base_t2v.sh      # 文生视频
bash helios-base_i2v.sh      # 图生视频
bash helios-base_v2v.sh      # 视频生视频

低显存模式(~6GB VRAM)

bash 复制代码
CUDA_VISIBLE_DEVICES=0 python infer_helios.py \
    --base_model_path "BestWishYsh/Helios-Distilled" \
    --prompt "A vibrant tropical fish swimming..." \
    --num_frames 240 \
    --enable_low_vram_mode \
    --group_offloading_type "leaf_level"

多GPU并行推理

bash 复制代码
CUDA_VISIBLE_DEVICES=0,1,2,3 torchrun --nproc_per_node 4 infer_helios.py \
    --enable_parallelism \
    --cp_backend "ulysses" \
    --base_model_path "BestWishYsh/Helios-Base" \
    --num_frames 99

支持的后端:ringulyssesunifiedulysses_anything

使用 Diffusers管道

python 复制代码
import torch
from diffusers import AutoModel, HeliosPyramidPipeline
from diffusers.utils import export_to_video

vae = AutoModel.from_pretrained("BestWishYsh/Helios-Distilled", subfolder="vae", torch_dtype=torch.float32)

pipeline = HeliosPyramidPipeline.from_pretrained(
    "BestWishYsh/Helios-Distilled",
    vae=vae,
    torch_dtype=torch.bfloat16
)
pipeline.to("cuda")

output = pipeline(
    prompt="A vibrant tropical fish swimming...",
    negative_prompt="Bright tones, overexposed, static...",
    num_frames=240,
    pyramid_num_inference_steps_list=[2, 2, 2],
    guidance_scale=1.0,
    is_amplify_first_chunk=True,
).frames[0]

export_to_video(output, "output.mp4", fps=24)

帧数与视频时长对照

num_frames 调整后帧数 24 FPS 16 FPS
1449 1452 (33×44) ~60秒 ~90秒
720 726 (33×22) ~30秒 ~45秒
240 264 (33×8) ~11秒 ~16秒
129 132 (33×4) ~5.5秒 ~8秒
81 99 (33×3) ~4秒 ~6秒

四、实现逻辑

Helios逻辑背景

传统长视频生成面临两大难题:

  1. 漂移问题:生成长视频时,画面容易逐渐失真、不一致
  2. 速度问题:高质量视频生成通常很慢,无法实时

现有方案通常用复杂的技术(如 KV-cache、特殊注意力机制)来加速,但 Helios 证明了不需要这些也能实现实时生成

核心技术原理(三阶段训练流程)

第一阶段:Base(基础适配)
  • 目标:将双向预训练模型转换为自回归生成器
  • 关键技术
    • Unified History Injection(统一历史注入):让模型记住之前生成的内容
    • Easy Anti-Drifting(简易防漂移):轻量级的稳定性保证
    • Multi-Term Memory Patchification(多术语记忆分块):高效管理长序列记忆
第二阶段:Mid(令牌压缩)
  • 目标:减少计算量
  • 关键技术
    • Pyramid Unified Predictor Corrector(金字塔统一预测校正器)
    • 激进地减少噪声令牌数量,降低整体计算负担
第三阶段:Distilled(蒸馏加速)
  • 目标:极致加速
  • 关键技术
    • Adversarial Hierarchical Distillation(对抗层次蒸馏)
    • 将采样步数从 50 步减少到 3 步
    • 消除对分类器自由引导(CFG)的依赖

Helios的优势

可以把 Helios 想象成一个视频画家

  1. 传统方法:画家每画一帧都要回头看前面所有帧,还要用各种辅助工具(缓存、特殊技巧)来保持画面一致,很慢

  2. Helios 方法

    • 画家有一个智能记忆本(统一历史注入),只记录关键信息
    • 画家学会了快速草图→精修的工作流(金字塔预测校正)
    • 经过特训后,画家可以3笔完成一幅画(蒸馏到3步采样)
    • 不需要额外辅助工具,靠自身能力就能保持画面一致

Helios的创新点

创新点 说明
无需防漂移策略 不依赖 self-forcing、keyframe sampling 等传统方法
无需加速技术 不依赖 KV-cache、稀疏注意力等,原生实时
三阶段渐进训练 Base→Mid→Distilled,逐步优化效率
多平台支持 支持 GPU、Ascend NPU、Diffusers、vLLM、SGLang
低显存运行 Group Offloading 技术使 6GB 显存即可运行
相关推荐
牧子川5 小时前
009-Transformer-Architecture
人工智能·深度学习·transformer
covco5 小时前
矩阵管理系统指南:拆解星链引擎的架构设计与全链路落地实践
大数据·人工智能·矩阵
沪漂阿龙6 小时前
AI大模型面试题:支持向量机是什么?间隔最大化、软间隔、核函数、LinearSVC 全面拆解
人工智能·算法·支持向量机
lifewange6 小时前
AI编写测试用例工具介绍
人工智能·测试用例
陕西字符6 小时前
2026 西安 豆包获客优化技术深度解析:企来客科技 AI 全域获客系统测评
大数据·人工智能
掘金安东尼6 小时前
GGUF、GPTQ、AWQ、EXL2、MLX、VMLX...运行大模型,为什么会有这么多格式?
人工智能
新知图书6 小时前
市场分析报告自动化生成(使用千问)
人工智能·ai助手·千问·高效办公
无心水6 小时前
【Hermes:安全、权限与生产环境】38、Hermes Agent 安全四层纵深:最小权限原则从理论到落地的完全指南
人工智能·安全·mcp协议·openclaw·养龙虾·hermes·honcho
旦莫6 小时前
AI驱动的纯视觉自动化测试:知识库里应该积累什么知识内容
人工智能·python·测试开发·pytest·ai测试
dfsj660116 小时前
第四章:深度学习革命
人工智能·深度学习