昆仑万维开源SkyReels-V2,解锁无限时长电影级创作,总分83.9%登顶V-Bench榜单

昆仑万维开源了全球首个基于扩散强迫框架(Diffusion-forcing)的无限时长视频生成模型------SkyReels-V2。这一模型以总分83.9%的优异成绩登顶权威评测V-Bench1.0榜单,并在质量维度获得84.7%的评分,刷新了开源视频生成技术的天花板。其核心突破在于解决了传统AI视频模型的三大痛点:时长限制(5-10秒)、运动质量差和专业镜头语言理解不足。

AI快站下载

https://aifasthub.com/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9

核心技术揭秘:驱动无限创意与电影质感

SkyReels-V2 的卓越表现源于其独特且协同的技术架构:

  • Diffusion Forcing:突破"时长天花板" 传统视频生成方法难以有效处理长序列依赖。SkyReels-V2 创新性地引入了 Diffusion Forcing 框架。这一独特的训练和采样策略,允许模型为视频中的每一帧(token)独立规划噪声水平和去噪路径。通过巧妙设计的非递减噪声时间表,它显著简化了长视频生成过程中的搜索空间,使得模型能够高效捕捉和维持跨越数十秒乃至更长时间的一致性,理论上具备生成无限长度视频的潜力。目前已公开展示了生成 30 秒、40 秒及更长连贯视频的能力。
  • SkyCaptioner-V1:赋予模型"导演视角" 为了生成真正具有电影感的视频,模型需要深度理解镜头语言。昆仑万维为此专门研发了 SkyCaptioner-V1,一个强大的视频理解模型。它结合了多模态大语言模型(MLLM)的通用描述能力和子专家模型对专业电影元素(如镜头构成、景别、光线、演员表情,特别是复杂的摄像机运动)的精细分析。这使得 SkyReels-V2 能够精准理解并执行包含复杂运镜指令的文本提示,生成更具专业水准的视觉叙事。
  • 强化学习(RL):精炼动态美学 针对 AI 视频中常见的物体漂移、不自然抖动等动态瑕疵,SkyReels-V2 采用了基于人类偏好数据的强化学习(RLHF)进行优化。通过高效的数据收集与模型训练,显著提升了生成视频的运动流畅度、物理真实感和整体视觉舒适度。
  • 多阶段精细化训练 模型并非一蹴而就,而是经历了严谨的多阶段训练流程:从渐进式分辨率预训练打下基础,到概念平衡的监督微调 (SFT) 提升保真度,再到运动特定的强化学习 (RL) 解决动态问题,最终引入 Diffusion Forcing 框架实现长视频生成,并辅以高质量高分辨率 SFT (720p) 对细节进行最终打磨。

性能巅峰:VBench 83.9% 登顶实证

SkyReels-V2 的强大实力在客观、量化的评测中得到了充分验证,尤其是在 VBench 1.0 基准上的表现堪称惊艳:

  • VBench 1.0 全面领先 VBench 是目前广泛认可的视频生成模型自动化评估基准之一。在其 1.0 版本(使用长提示集)的公开评测中,SkyReels-V2 展现了压倒性的优势:
    • 总得分 (Overall Score) 达到 83.9%,位居所有参与评测的开源模型之首。
    • 质量得分 (Quality Score) 高达 84.7%,同样排名第一。
    • 这意味着 SkyReels-V2 在视频的视觉质量、时序连贯性、背景稳定性、物体一致性等多个维度上均表现出色,综合实力强劲。它成功超越了包括 HunyuanVideo-13B、Wan2.1-14B 在内的同类知名开源模型。
  • SkyReels-Bench 人工评估印证 除了自动化评估,昆仑万维团队还构建了包含 1020 个提示的内部基准 SkyReels-Bench 进行人工细致评估。结果显示,SkyReels-V2 在最能体现模型理解和执行能力的指令遵循度 (3.15分) 和 一致性 (3.35分) 方面得分最高。同时,其视觉质量 (3.34分) 和 运动质量 (2.74分) 也处于行业领先水平,进一步佐证了模型的综合素质。

解锁应用场景:从创意短片到宏大叙事

凭借其领先的技术和 VBench 认证的卓越性能,SkyReels-V2 为内容创作打开了新的大门:

  • 无限时长故事片:利用其核心优势,创作具有连贯剧情的长视频、微电影或动画片段。
  • 高质量图生视频:将静态图像转化为生动、自然的视频,效果出众。
  • 电影级运镜实现:精准控制镜头运动,轻松实现推、拉、摇、移、跟等专业效果。
  • 灵活元素组合:结合配套方案,可将不同背景、角色、物体素材融合成完整视频。

结语

从5秒到无限时长,SkyReels-V2不仅是一次技术突破,更降低了专业影视创作的门槛。无论是独立创作者还是商业团队,均可通过这一工具探索叙事表达的无限可能。

相关推荐
MARS_AI_1 小时前
云蝠智能 Voice Agent 落地展会邀约场景:重构会展行业的智能交互范式
人工智能·自然语言处理·重构·交互·语音识别·信息与通信
weixin_422456442 小时前
第N7周:调用Gensim库训练Word2Vec模型
人工智能·机器学习·word2vec
HuggingFace5 小时前
Hugging Face 开源机器人 Reachy Mini 开启预定
人工智能
智海观潮6 小时前
Flink CDC支持Oracle RAC架构CDB+PDB模式的实时数据同步吗,可以上生产环境吗
大数据·oracle·flink·flink cdc·数据同步
企企通采购云平台6 小时前
「天元宠物」×企企通,加速数智化升级,“链”接萌宠消费新蓝海
大数据·人工智能·宠物
超级小忍6 小时前
Spring AI ETL Pipeline使用指南
人工智能·spring
Apache Flink6 小时前
Flink Forward Asia 2025 主旨演讲精彩回顾
大数据·flink
张较瘦_6 小时前
[论文阅读] 人工智能 | 读懂Meta-Fair:让LLM摆脱偏见的自动化测试新方法
论文阅读·人工智能
巴伦是只猫7 小时前
【机器学习笔记 Ⅲ】4 特征选择
人工智能·笔记·机器学习
NocoBase7 小时前
NocoBase v1.8.0 正式版发布
低代码·开源·资讯