昆仑万维开源SkyReels-V2，解锁无限时长电影级创作，总分83.9%登顶V-Bench榜单

昆仑万维开源了全球首个基于扩散强迫框架（Diffusion-forcing）的无限时长视频生成模型------SkyReels-V2。这一模型以总分83.9%的优异成绩登顶权威评测V-Bench1.0榜单，并在质量维度获得84.7%的评分，刷新了开源视频生成技术的天花板。其核心突破在于解决了传统AI视频模型的三大痛点：时长限制（5-10秒）、运动质量差和专业镜头语言理解不足。

AI快站下载

https://aifasthub.com/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9

核心技术揭秘：驱动无限创意与电影质感

SkyReels-V2 的卓越表现源于其独特且协同的技术架构：

Diffusion Forcing：突破"时长天花板" 传统视频生成方法难以有效处理长序列依赖。SkyReels-V2 创新性地引入了 Diffusion Forcing 框架。这一独特的训练和采样策略，允许模型为视频中的每一帧（token）独立规划噪声水平和去噪路径。通过巧妙设计的非递减噪声时间表，它显著简化了长视频生成过程中的搜索空间，使得模型能够高效捕捉和维持跨越数十秒乃至更长时间的一致性，理论上具备生成无限长度视频的潜力。目前已公开展示了生成 30 秒、40 秒及更长连贯视频的能力。
SkyCaptioner-V1：赋予模型"导演视角" 为了生成真正具有电影感的视频，模型需要深度理解镜头语言。昆仑万维为此专门研发了 SkyCaptioner-V1，一个强大的视频理解模型。它结合了多模态大语言模型（MLLM）的通用描述能力和子专家模型对专业电影元素（如镜头构成、景别、光线、演员表情，特别是复杂的摄像机运动）的精细分析。这使得 SkyReels-V2 能够精准理解并执行包含复杂运镜指令的文本提示，生成更具专业水准的视觉叙事。
强化学习（RL）：精炼动态美学针对 AI 视频中常见的物体漂移、不自然抖动等动态瑕疵，SkyReels-V2 采用了基于人类偏好数据的强化学习（RLHF）进行优化。通过高效的数据收集与模型训练，显著提升了生成视频的运动流畅度、物理真实感和整体视觉舒适度。
多阶段精细化训练模型并非一蹴而就，而是经历了严谨的多阶段训练流程：从渐进式分辨率预训练打下基础，到概念平衡的监督微调 (SFT) 提升保真度，再到运动特定的强化学习 (RL) 解决动态问题，最终引入 Diffusion Forcing 框架实现长视频生成，并辅以高质量高分辨率 SFT (720p) 对细节进行最终打磨。

性能巅峰：VBench 83.9% 登顶实证

SkyReels-V2 的强大实力在客观、量化的评测中得到了充分验证，尤其是在 VBench 1.0 基准上的表现堪称惊艳：

VBench 1.0 全面领先 VBench 是目前广泛认可的视频生成模型自动化评估基准之一。在其 1.0 版本（使用长提示集）的公开评测中，SkyReels-V2 展现了压倒性的优势：
- 总得分 (Overall Score) 达到 83.9%，位居所有参与评测的开源模型之首。
- 质量得分 (Quality Score) 高达 84.7%，同样排名第一。
- 这意味着 SkyReels-V2 在视频的视觉质量、时序连贯性、背景稳定性、物体一致性等多个维度上均表现出色，综合实力强劲。它成功超越了包括 HunyuanVideo-13B、Wan2.1-14B 在内的同类知名开源模型。
SkyReels-Bench 人工评估印证除了自动化评估，昆仑万维团队还构建了包含 1020 个提示的内部基准 SkyReels-Bench 进行人工细致评估。结果显示，SkyReels-V2 在最能体现模型理解和执行能力的指令遵循度 (3.15分) 和一致性 (3.35分) 方面得分最高。同时，其视觉质量 (3.34分) 和运动质量 (2.74分) 也处于行业领先水平，进一步佐证了模型的综合素质。

解锁应用场景：从创意短片到宏大叙事

凭借其领先的技术和 VBench 认证的卓越性能，SkyReels-V2 为内容创作打开了新的大门：

无限时长故事片：利用其核心优势，创作具有连贯剧情的长视频、微电影或动画片段。
高质量图生视频：将静态图像转化为生动、自然的视频，效果出众。
电影级运镜实现：精准控制镜头运动，轻松实现推、拉、摇、移、跟等专业效果。
灵活元素组合：结合配套方案，可将不同背景、角色、物体素材融合成完整视频。

结语

从5秒到无限时长，SkyReels-V2不仅是一次技术突破，更降低了专业影视创作的门槛。无论是独立创作者还是商业团队，均可通过这一工具探索叙事表达的无限可能。