有哪些开源的视频生成模型

1. 阿里巴巴通义万相2.1(WanX 2.1)

  • 技术架构:基于Diffusion Transformer(DiT)架构,结合自研的高效变分自编码器(VAE)和Flow Matching训练方案,支持时空上下文建模。
  • 参数规模:提供14B和1.3B两种参数规格,后者支持本地部署(仅需8.2GB显存)。
  • 生成能力
    • 支持无限长1080P视频的高效编解码,首次实现中文文字视频生成。
    • 可生成复杂运镜效果,并还原物理规律(如雨滴溅水效果)。
  • 应用场景:广告设计、宣传片、短视频创作。
  • 性能指标
    • 在VBench评测中以86.22%得分位居榜首,超越Sora、Luma等模型。
    • 生成速度比原有SOTA模型快2.5倍,运动质量指标达商用级别。

2. 腾讯混元大模型(Hunyuan Video)

  • 技术架构:130亿参数的图生视频模型,基于Hybrid-Mamba-Transformer混合架构,支持中英文输入和多尺寸视频生成。
  • 生成能力
    • 生成5秒短视频,支持对口型、唱歌功能及动漫角色制作。
    • 提供视频配音与数字人驱动功能。
  • 应用场景:写实视频、广告、教育内容。
  • 性能指标
    • 在文本一致性、运动质量等评测维度领先,总体评分41.30%,显著高于第二名。

3. 阶跃星辰Step-Video-T2V

  • 技术架构:300亿参数的Diffusion Transformer(DiT),采用Flow Matching训练和3D全注意力机制,支持动态幅度与镜头轨迹控制。
  • 生成能力
    • 生成204帧(约8秒)540P视频,支持复杂动作(如芭蕾舞)和物理规律复现。
    • 通过通道维度拼接技术保持画面与原图一致性。
  • 应用场景:动画制作、短视频创作、教育培训。
  • 性能指标
    • 在VBench-I2V基准测试中达到SOTA级别,运动控制能力突出。

4. Open-Sora 2.0

  • 技术架构:基于3D自编码器和MMDiT架构(Masked Motion Diffusion Transformer),11B参数,结合Flow Matching训练。
  • 生成能力
    • 支持720P分辨率、24 FPS视频生成,最长128帧,支持文生视频(T2V)和图生视频(T2I2V)。
    • 训练成本仅20万美元(224张GPU),接近闭源模型性能。
  • 应用场景:影视预演、广告创意、游戏开发。
  • 性能指标
    • VBench评测与Sora差距缩小至0.69%,用户偏好测试超越HunyuanVideo等模型。

5. 昆仑万维SkyReels-V1

  • 技术架构:13B参数,基于好莱坞影视数据训练,集成3D因果卷积和自研推理优化框架「SkyReels-Infer」。
  • 生成能力
    • 支持33种微表情和400+自然动作组合,生成544P分辨率视频。
    • 单卡4090推理仅需80秒,支持分布式多卡并行。
  • 应用场景:AI短剧创作、电影特效。
  • 性能指标
    • 在开源视频生成模型中性能最强,画面达电影级质感。

6. LTX Video

  • 技术架构:基于DiT和潜在扩散模型(Latent Diffusion),采用高压缩比Video-VAE(1:192)。
  • 生成能力
    • 实时生成768×512分辨率、24 FPS视频(2秒生成5秒视频)。
    • 支持文生视频和图生视频,画面过渡自然。
  • 应用场景:广告、短视频、游戏图形升级。
  • 性能指标
    • 在速度和视觉质量上超越传统模型,支持低显存设备运行。

7. 智谱CogVideoX

  • 技术架构:基于3D因果VAE和专家Transformer,支持INT8量化(显存需求7.8GB)。
  • 生成能力
    • 生成6秒、720×480分辨率视频,支持低显存显卡(如1080 Ti)。
    • 通过渐进式训练生成长时动态视频。
  • 应用场景:教育、影视预演。
  • 性能指标
    • 在人类评估中表现SOTA,支持多分辨率帧打包。

总结对比

模型 参数规模 分辨率/帧率 核心优势 应用场景
通义万相2.1 14B/1.3B 1080P/不限长 中文文字生成、物理规律复现 广告、短视频
腾讯混元 130B 多种尺寸/5秒 对口型、多语言支持 写实视频、动漫
Step-Video-T2V 300B 540P/8秒 动态控制、复杂动作生成 动画、特效
Open-Sora 2.0 11B 720P/24 FPS 低成本、高性能 影视预演、教育
SkyReels-V1 13B 544P/80秒推理 微表情与动作组合 AI短剧、电影特效
LTX Video - 768×512/24 FPS 实时生成、高压缩比 广告、游戏
CogVideoX - 720×480/6秒 低显存需求、长视频生成 教育、影视预演

关键趋势

  1. 技术突破:主流模型普遍采用DiT架构和3D VAE,显著提升时空建模能力。
  2. 开源生态:阿里、腾讯、阶跃星辰等企业推动模型开源,加速技术普及。
  3. 应用扩展:从短视频生成向影视、教育、游戏等专业场景延伸。

这些模型的开源降低了AI视频生成门槛,推动了多领域创新,未来将进一步缩小与闭源模型的差距。

相关推荐
肖爱Kun5 小时前
STL标准模块库操作
开发语言·音视频
2601_958352905 小时前
双麦 DSP 音频拾音模块 A-68:多场景远场语音交互的声学解决方案
嵌入式硬件·音视频·降噪·回音消除·音频处理模块
2601_958352906 小时前
对讲系统音频优化实战:解决回声、啸叫、环境噪音与远场拾音难题
嵌入式硬件·音视频·语音识别·降噪处理·音频处理模块·硬件开发模块
南山有乔木7897 小时前
下载的ncm歌曲不能播放怎么办?NCM在线转MP3怎么操作?手机电脑转换教程参考
音视频
开开心心就好8 小时前
解决截图被拦截黑屏问题的免费小工具
安全·智能手机·flink·kafka·pdf·音视频·1024程序员节
2601_958352908 小时前
双麦 DSP 音频模块实战:一文梳理 A-68 在全行业场景的声学解决方案与落地要点
前端·嵌入式硬件·音视频·语音识别·降噪消回音·音频处理模块
Deitymoon8 小时前
RV1126——OSD模块和SDL_TTF结合输出H264文件
计算机视觉·音视频·rv1126·osd
AI创界者8 小时前
【解压即用】Scail-2 视频动作迁移一键整合包:8G显存通吃50系,长视频/多人/精准目标替换全攻略
人工智能·python·aigc·音视频
狼哥16868 小时前
《新闻资讯》四、视频模块实现指南
ui·华为·音视频·harmonyos
音乐宝贝家10 小时前
1000-2000元入门面单吉他横评:面板/背侧板/琴颈/指板/桶型全维度技术拆解
新媒体运营·音视频·社交电子·业界资讯·媒体·零售·内容运营