昆仑万维开源SkyReels-V2,解锁无限时长电影级创作,总分83.9%登顶V-Bench榜单

昆仑万维开源了全球首个基于扩散强迫框架(Diffusion-forcing)的无限时长视频生成模型------SkyReels-V2。这一模型以总分83.9%的优异成绩登顶权威评测V-Bench1.0榜单,并在质量维度获得84.7%的评分,刷新了开源视频生成技术的天花板。其核心突破在于解决了传统AI视频模型的三大痛点:时长限制(5-10秒)、运动质量差和专业镜头语言理解不足。

AI快站下载

https://aifasthub.com/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9

核心技术揭秘:驱动无限创意与电影质感

SkyReels-V2 的卓越表现源于其独特且协同的技术架构:

  • Diffusion Forcing:突破"时长天花板" 传统视频生成方法难以有效处理长序列依赖。SkyReels-V2 创新性地引入了 Diffusion Forcing 框架。这一独特的训练和采样策略,允许模型为视频中的每一帧(token)独立规划噪声水平和去噪路径。通过巧妙设计的非递减噪声时间表,它显著简化了长视频生成过程中的搜索空间,使得模型能够高效捕捉和维持跨越数十秒乃至更长时间的一致性,理论上具备生成无限长度视频的潜力。目前已公开展示了生成 30 秒、40 秒及更长连贯视频的能力。
  • SkyCaptioner-V1:赋予模型"导演视角" 为了生成真正具有电影感的视频,模型需要深度理解镜头语言。昆仑万维为此专门研发了 SkyCaptioner-V1,一个强大的视频理解模型。它结合了多模态大语言模型(MLLM)的通用描述能力和子专家模型对专业电影元素(如镜头构成、景别、光线、演员表情,特别是复杂的摄像机运动)的精细分析。这使得 SkyReels-V2 能够精准理解并执行包含复杂运镜指令的文本提示,生成更具专业水准的视觉叙事。
  • 强化学习(RL):精炼动态美学 针对 AI 视频中常见的物体漂移、不自然抖动等动态瑕疵,SkyReels-V2 采用了基于人类偏好数据的强化学习(RLHF)进行优化。通过高效的数据收集与模型训练,显著提升了生成视频的运动流畅度、物理真实感和整体视觉舒适度。
  • 多阶段精细化训练 模型并非一蹴而就,而是经历了严谨的多阶段训练流程:从渐进式分辨率预训练打下基础,到概念平衡的监督微调 (SFT) 提升保真度,再到运动特定的强化学习 (RL) 解决动态问题,最终引入 Diffusion Forcing 框架实现长视频生成,并辅以高质量高分辨率 SFT (720p) 对细节进行最终打磨。

性能巅峰:VBench 83.9% 登顶实证

SkyReels-V2 的强大实力在客观、量化的评测中得到了充分验证,尤其是在 VBench 1.0 基准上的表现堪称惊艳:

  • VBench 1.0 全面领先 VBench 是目前广泛认可的视频生成模型自动化评估基准之一。在其 1.0 版本(使用长提示集)的公开评测中,SkyReels-V2 展现了压倒性的优势:
    • 总得分 (Overall Score) 达到 83.9%,位居所有参与评测的开源模型之首。
    • 质量得分 (Quality Score) 高达 84.7%,同样排名第一。
    • 这意味着 SkyReels-V2 在视频的视觉质量、时序连贯性、背景稳定性、物体一致性等多个维度上均表现出色,综合实力强劲。它成功超越了包括 HunyuanVideo-13B、Wan2.1-14B 在内的同类知名开源模型。
  • SkyReels-Bench 人工评估印证 除了自动化评估,昆仑万维团队还构建了包含 1020 个提示的内部基准 SkyReels-Bench 进行人工细致评估。结果显示,SkyReels-V2 在最能体现模型理解和执行能力的指令遵循度 (3.15分) 和 一致性 (3.35分) 方面得分最高。同时,其视觉质量 (3.34分) 和 运动质量 (2.74分) 也处于行业领先水平,进一步佐证了模型的综合素质。

解锁应用场景:从创意短片到宏大叙事

凭借其领先的技术和 VBench 认证的卓越性能,SkyReels-V2 为内容创作打开了新的大门:

  • 无限时长故事片:利用其核心优势,创作具有连贯剧情的长视频、微电影或动画片段。
  • 高质量图生视频:将静态图像转化为生动、自然的视频,效果出众。
  • 电影级运镜实现:精准控制镜头运动,轻松实现推、拉、摇、移、跟等专业效果。
  • 灵活元素组合:结合配套方案,可将不同背景、角色、物体素材融合成完整视频。

结语

从5秒到无限时长,SkyReels-V2不仅是一次技术突破,更降低了专业影视创作的门槛。无论是独立创作者还是商业团队,均可通过这一工具探索叙事表达的无限可能。

相关推荐
爱喝奶茶的企鹅几秒前
Ethan独立开发产品日报 | 2025-04-24
人工智能·程序员·开源
鸿蒙布道师2 分钟前
OpenAI为何觊觎Chrome?AI时代浏览器争夺战背后的深层逻辑
前端·人工智能·chrome·深度学习·opencv·自然语言处理·chatgpt
生信宝典5 分钟前
Nature method: 生物研究中的语言模型入门指南
人工智能·语言模型·自然语言处理
飞哥数智坊15 分钟前
从零开始:用“扣子”打造你的专属Word审查智能体
人工智能
虹科数字化与AR20 分钟前
安宝特案例 | 物流仓储头部企业应用AR+作业流,规范日常安全点检,保障消防安全
人工智能·ar·ar眼镜·仓储物流·仓储管理
夸克App40 分钟前
实现营销投放全流程自动化 超级汇川推出信息流智能投放产品“AI智投“
运维·人工智能·自动化
Rainbond云原生43 分钟前
83k Star!n8n 让 AI 驱动的工作流自动化触手可及
运维·人工智能·自动化
招风的黑耳1 小时前
Axure大屏可视化模板:多领域数据决策的新引擎
人工智能·产品设计
朴拙数科1 小时前
艺术字体AI生成阿里云WordArt锦书、通义万相、SiliconFlow、Pillow+OpenCV本地生成艺术字体
人工智能·阿里云·pillow
电商数据girl1 小时前
产品经理对于电商接口的梳理||电商接口文档梳理与接入
大数据·数据库·python·自动化·产品经理