美团视频生成模型来了!一出手就是开源SOTA

美团,你是跨界上瘾了是吧!(doge)

没错,最新开源 SOTA 视频模型,又是来自这家 "送外卖" 的公司。

模型名为 LongCat-Video,参数 13.6B,支持文生 / 图生视频,视频时长可达数分钟。

从官方释出的 demo 来看,模型生成的视频不仅更加真实自然,而且懂物理的能力又双叒增强了。

无论是空中滑板:

还是一秒特效变身:

抑或是第一视角下,全程需要保持画面一致的骑车视频_(时长整整有 4 分多种)_:

怎么样?是不是有拍电影电视剧的感 jio 了~

敲黑板,由于 LongCat-Video 本身就经过视频连续任务的预训练,所以它能够制作长达数分钟的视频,而不会出现颜色漂移或质量下降的情况_(一般可稳定输出 5 分钟级别的长视频,且无质量损失)_。

美团表示,之所以推出 LongCat-Video,核心瞄准的还是世界模型这一前沿领域:

作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予 AI"看见" 世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径------通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI 得以在数字空间中模拟、推演乃至预演真实世界的运行。

而为了构建视频模型 LongCat-Video,美团这次在技术方面也是进行了一系列创新和突破。

背后技术原理

LongCat-Video 只有 13.6B,但集成了文生视频、图生视频和视频续生三大任务于一体。

具体来说,整个模型以 Diffusion Transformer _(DiT)_为框架设计,其中每个 Transformer 块都由 3D 自注意力层、交叉注意力层,以及采用 SwiGLU 激活函数的前馈网络组成。

并使用 AdaLN-Zero 调制机制,将每个 Transformer 块均集成为专用的调制多层感知机,再在自注意力和交叉注意力模块中,采用 RMSNorm 归一化以提升训练稳定性,另外还对视觉 token 的位置编码使用 3D RoPE。

然后将所有任务都定义为视频续生任务,通过条件帧数量进行区分:

  • 文本到视频:0 帧条件。

  • 图像到视频:1 帧条件。

  • 视频续生:多帧条件。

统一混合输入后,将无噪声的条件帧和待去噪的噪声帧沿着时间轴拼接,结合时序步配置,以实现单模型原生支持多任务。

而为了适配这类输入,研究团队还在架构中设计了一种带键值缓存_(KVCache)_的块注意力机制,该设计可以确保条件 token 不受噪声 token 的影响,且后续可以缓存并复用条件 token 的 KV 特征,提升长视频生成效率。

其中最瞩目的长视频生成能力,主要通过原生预训练设计和交互式生成支持两大核心特性实现。

首先 LongCat-Video 摒弃了传统的 "先训练基础视频生成能力,再针对长视频任务微调" 的训练路径,而是直接在视频续生任务上预训练

这样做可以直接从源头解决长视频生成中的累积误差问题,在生成分钟级视频的同时,避免色彩漂移和质量下降。

另外 LongCat-Video 还支持交互式长视频生成,允许用户为不同片段设置独立指令,进一步扩展了长视频创作的灵活性。

为了提高视频生成的推理效率,团队提出了一种从粗到精的生成范式,先是让模型生成 480p、15fps 的低分辨率低帧率视频,再通过三线性插值将分辨率升级至 720p、30fps,同时由一个 LoRA 训练的精炼专家模型进行细节优化。

再引入块稀疏注意力,将注意力计算量降至原始的 10% 以下,配合上下文并行的环形块稀疏注意力,进一步优化高分辨率生成效率。

结合 CFG 蒸馏和一致性模型_(CM)_蒸馏,将采样步数从 50 步缩减至 16 步,实现在单 H800 GPU 上,单个 720p、30fps 视频生成可在分钟内完成,效率提升超 10 倍。

另外针对视频生成场景,使用组相对策略优化 _(GRPO)_算法,提升 GRPO 在视频生成任务中的收敛速度与生成质量。

在训练过程中,分别采用三类专用奖励模型:

  • 视觉质量

    (VQ):结合 HPSv3-general 和 HPSv3-percentile 进行评估。

  • 运动质量

    (MQ):基于 VideoAlign 模型微调,并使用灰度视频训练避免色彩偏好。

  • 文本 - 视频对齐度

    (TA):同样基于 VideoAlign 模型微调,但保留原始的彩色输入。

然后进行多奖励加权融合训练,避免单一奖励的过拟合和奖励欺骗问题,实现视觉、运动、对齐能力的均衡提升。

在完成数据构建和模型训练后,研究团队首先对其进行内部基准测试,主要评估文生视频和图生视频性能。

其中文生视频,包含文本对齐、视觉质量、运动质量、整体质量四个维度。

实验结果表明,LongCat-Video 在整体质量得分中超越 PixVerse-V5 和 Wan2.2-T2V-A14B,视觉质量接近 Wan2.2-T2V-A14B,仅略逊于闭源模型 Veo3

图生视频则在此基础上,新增图像对齐维度评估,最终结果中 LongCat-Video 的视觉质量得分最高_(3.27)_,说明整体质量具有竞争力,但图像对齐与运动质量仍有提升空间。

另外研究团队还进行了 VBench 2.0 的公开基准测试,LongCat-Video 总得分位列第三_(62.11%),仅次于 Veo3 (66.72%)和 Vidu Q1(62.7%)_。

值得注意的是,LongCat-Video 在常识性维度_(运动合理性、物理定律遵循)_上处于第一的领先优势,凸显出该模型优秀的物理世界建模能力。

One More Thing

而这已经不是这家外卖公司第一次 "不务正业" 了......

从八月底开始,美团龙猫大模型就在不停地发发发,先是端出来了最经典的开源基础模型 LongCat-Flash-Chat

总参数 560B,可以在仅激活少量参数的前提下,实现性能比肩市面上的主流模型,尤其是在复杂的 Agent 任务中表现突出。

而且现已登陆 API 平台使用~

一个月不到,又上新了 LongCat-Flash-Thinking,在逻辑、数学、编码、Agent 多任务中均达成 SOTA 水平,是国内首个同时具备 "深度思考 + 工具调用" 和"非形式化 + 形式化"推理能力的 LLM,可以实现更低成本、更优性能。

随后又专为语音 LLM 推出了 LongCat-Audio-Codec,可以同时对语义和声学 token 以低帧速率_(16.7Hz/60ms)_并行提取,实现高效离散化,并能够在极低的比特率中保持高清晰度。

以及专为复杂现实生活场景_(外卖送餐、餐厅点餐、旅游出行)打造的 Agent 评测基准------VitaBench,可以系统性衡量 Agent 在推理、工具使用和自适应交互方面的能力。(泪目,终于回归老本行. jpg)_

......

最后再到今天的视频生成模型,毫无疑问,"跨界"AI 正在成为这家外卖公司的新常态。

开源地址:
github.com/meituan-lon...
huggingface.co/meituan-lon...
项目主页:
meituan-longcat.github.io/LongCat-Vid...

*参考链接:

1\][x.com/Meituan_Lon...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FMeituan_LongCat%2Fstatus%2F1982083998852763838 "https://x.com/Meituan_LongCat/status/1982083998852763838") \[2\][x.com/reach_vb/st...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Freach_vb%2Fstatus%2F1982014895454331341 "https://x.com/reach_vb/status/1982014895454331341") \[3\][mp.weixin.qq.com/s/W2T7P825m...](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzYyMTA0NTc5NQ%3D%3D%26mid%3D2247484034%26idx%3D1%26sn%3Dc7e938098b4457b7dd97ab4e348c3a08%26scene%3D21%23wechat_redirect "https://mp.weixin.qq.com/s?__biz=MzYyMTA0NTc5NQ==&mid=2247484034&idx=1&sn=c7e938098b4457b7dd97ab4e348c3a08&scene=21#wechat_redirect")* **欢迎在评论区留下你的想法!** --- **完** ---

相关推荐
冬奇Lab11 小时前
一天一个开源项目(第17篇):ViMax - 多智能体视频生成框架,导演、编剧、制片人全包
开源·音视频开发
一个处女座的程序猿12 小时前
AI之Agent之VibeCoding:《Vibe Coding Kills Open Source》翻译与解读
人工智能·开源·vibecoding·氛围编程
一只大侠的侠13 小时前
React Native开源鸿蒙跨平台训练营 Day16自定义 useForm 高性能验证
flutter·开源·harmonyos
IvorySQL14 小时前
PostgreSQL 分区表的 ALTER TABLE 语句执行机制解析
数据库·postgresql·开源
一只大侠的侠15 小时前
Flutter开源鸿蒙跨平台训练营 Day11从零开发商品详情页面
flutter·开源·harmonyos
一只大侠的侠15 小时前
React Native开源鸿蒙跨平台训练营 Day18自定义useForm表单管理实战实现
flutter·开源·harmonyos
一只大侠的侠15 小时前
React Native开源鸿蒙跨平台训练营 Day20自定义 useValidator 实现高性能表单验证
flutter·开源·harmonyos
晚霞的不甘16 小时前
Flutter for OpenHarmony 可视化教学:A* 寻路算法的交互式演示
人工智能·算法·flutter·架构·开源·音视频
晚霞的不甘17 小时前
Flutter for OpenHarmony 实现计算几何:Graham Scan 凸包算法的可视化演示
人工智能·算法·flutter·架构·开源·音视频
猫头虎17 小时前
OpenClaw-VSCode:在 VS Code 里玩转 OpenClaw,远程管理+SSH 双剑合璧
ide·vscode·开源·ssh·github·aigc·ai编程