美团视频生成模型来了!一出手就是开源SOTA

美团,你是跨界上瘾了是吧!(doge)

没错,最新开源 SOTA 视频模型,又是来自这家 "送外卖" 的公司。

模型名为 LongCat-Video,参数 13.6B,支持文生 / 图生视频,视频时长可达数分钟。

从官方释出的 demo 来看,模型生成的视频不仅更加真实自然,而且懂物理的能力又双叒增强了。

无论是空中滑板:

还是一秒特效变身:

抑或是第一视角下,全程需要保持画面一致的骑车视频_(时长整整有 4 分多种)_:

怎么样?是不是有拍电影电视剧的感 jio 了~

敲黑板,由于 LongCat-Video 本身就经过视频连续任务的预训练,所以它能够制作长达数分钟的视频,而不会出现颜色漂移或质量下降的情况_(一般可稳定输出 5 分钟级别的长视频,且无质量损失)_。

美团表示,之所以推出 LongCat-Video,核心瞄准的还是世界模型这一前沿领域:

作为能够建模物理规律、时空演化与场景逻辑的智能系统,世界模型赋予 AI"看见" 世界运行本质的能力。而视频生成模型有望成为构建世界模型的关键路径------通过视频生成任务压缩几何、语义、物理等多种形式的知识,AI 得以在数字空间中模拟、推演乃至预演真实世界的运行。

而为了构建视频模型 LongCat-Video,美团这次在技术方面也是进行了一系列创新和突破。

背后技术原理

LongCat-Video 只有 13.6B,但集成了文生视频、图生视频和视频续生三大任务于一体。

具体来说,整个模型以 Diffusion Transformer _(DiT)_为框架设计,其中每个 Transformer 块都由 3D 自注意力层、交叉注意力层,以及采用 SwiGLU 激活函数的前馈网络组成。

并使用 AdaLN-Zero 调制机制,将每个 Transformer 块均集成为专用的调制多层感知机,再在自注意力和交叉注意力模块中,采用 RMSNorm 归一化以提升训练稳定性,另外还对视觉 token 的位置编码使用 3D RoPE。

然后将所有任务都定义为视频续生任务,通过条件帧数量进行区分:

  • 文本到视频:0 帧条件。

  • 图像到视频:1 帧条件。

  • 视频续生:多帧条件。

统一混合输入后,将无噪声的条件帧和待去噪的噪声帧沿着时间轴拼接,结合时序步配置,以实现单模型原生支持多任务。

而为了适配这类输入,研究团队还在架构中设计了一种带键值缓存_(KVCache)_的块注意力机制,该设计可以确保条件 token 不受噪声 token 的影响,且后续可以缓存并复用条件 token 的 KV 特征,提升长视频生成效率。

其中最瞩目的长视频生成能力,主要通过原生预训练设计和交互式生成支持两大核心特性实现。

首先 LongCat-Video 摒弃了传统的 "先训练基础视频生成能力,再针对长视频任务微调" 的训练路径,而是直接在视频续生任务上预训练

这样做可以直接从源头解决长视频生成中的累积误差问题,在生成分钟级视频的同时,避免色彩漂移和质量下降。

另外 LongCat-Video 还支持交互式长视频生成,允许用户为不同片段设置独立指令,进一步扩展了长视频创作的灵活性。

为了提高视频生成的推理效率,团队提出了一种从粗到精的生成范式,先是让模型生成 480p、15fps 的低分辨率低帧率视频,再通过三线性插值将分辨率升级至 720p、30fps,同时由一个 LoRA 训练的精炼专家模型进行细节优化。

再引入块稀疏注意力,将注意力计算量降至原始的 10% 以下,配合上下文并行的环形块稀疏注意力,进一步优化高分辨率生成效率。

结合 CFG 蒸馏和一致性模型_(CM)_蒸馏,将采样步数从 50 步缩减至 16 步,实现在单 H800 GPU 上,单个 720p、30fps 视频生成可在分钟内完成,效率提升超 10 倍。

另外针对视频生成场景,使用组相对策略优化 _(GRPO)_算法,提升 GRPO 在视频生成任务中的收敛速度与生成质量。

在训练过程中,分别采用三类专用奖励模型:

  • 视觉质量

    (VQ):结合 HPSv3-general 和 HPSv3-percentile 进行评估。

  • 运动质量

    (MQ):基于 VideoAlign 模型微调,并使用灰度视频训练避免色彩偏好。

  • 文本 - 视频对齐度

    (TA):同样基于 VideoAlign 模型微调,但保留原始的彩色输入。

然后进行多奖励加权融合训练,避免单一奖励的过拟合和奖励欺骗问题,实现视觉、运动、对齐能力的均衡提升。

在完成数据构建和模型训练后,研究团队首先对其进行内部基准测试,主要评估文生视频和图生视频性能。

其中文生视频,包含文本对齐、视觉质量、运动质量、整体质量四个维度。

实验结果表明,LongCat-Video 在整体质量得分中超越 PixVerse-V5 和 Wan2.2-T2V-A14B,视觉质量接近 Wan2.2-T2V-A14B,仅略逊于闭源模型 Veo3

图生视频则在此基础上,新增图像对齐维度评估,最终结果中 LongCat-Video 的视觉质量得分最高_(3.27)_,说明整体质量具有竞争力,但图像对齐与运动质量仍有提升空间。

另外研究团队还进行了 VBench 2.0 的公开基准测试,LongCat-Video 总得分位列第三_(62.11%),仅次于 Veo3 (66.72%)和 Vidu Q1(62.7%)_。

值得注意的是,LongCat-Video 在常识性维度_(运动合理性、物理定律遵循)_上处于第一的领先优势,凸显出该模型优秀的物理世界建模能力。

One More Thing

而这已经不是这家外卖公司第一次 "不务正业" 了......

从八月底开始,美团龙猫大模型就在不停地发发发,先是端出来了最经典的开源基础模型 LongCat-Flash-Chat

总参数 560B,可以在仅激活少量参数的前提下,实现性能比肩市面上的主流模型,尤其是在复杂的 Agent 任务中表现突出。

而且现已登陆 API 平台使用~

一个月不到,又上新了 LongCat-Flash-Thinking,在逻辑、数学、编码、Agent 多任务中均达成 SOTA 水平,是国内首个同时具备 "深度思考 + 工具调用" 和"非形式化 + 形式化"推理能力的 LLM,可以实现更低成本、更优性能。

随后又专为语音 LLM 推出了 LongCat-Audio-Codec,可以同时对语义和声学 token 以低帧速率_(16.7Hz/60ms)_并行提取,实现高效离散化,并能够在极低的比特率中保持高清晰度。

以及专为复杂现实生活场景_(外卖送餐、餐厅点餐、旅游出行)打造的 Agent 评测基准------VitaBench,可以系统性衡量 Agent 在推理、工具使用和自适应交互方面的能力。(泪目,终于回归老本行. jpg)_

......

最后再到今天的视频生成模型,毫无疑问,"跨界"AI 正在成为这家外卖公司的新常态。

开源地址:
github.com/meituan-lon...
huggingface.co/meituan-lon...
项目主页:
meituan-longcat.github.io/LongCat-Vid...

*参考链接:

1\][x.com/Meituan_Lon...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2FMeituan_LongCat%2Fstatus%2F1982083998852763838 "https://x.com/Meituan_LongCat/status/1982083998852763838") \[2\][x.com/reach_vb/st...](https://link.juejin.cn?target=https%3A%2F%2Fx.com%2Freach_vb%2Fstatus%2F1982014895454331341 "https://x.com/reach_vb/status/1982014895454331341") \[3\][mp.weixin.qq.com/s/W2T7P825m...](https://link.juejin.cn?target=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzYyMTA0NTc5NQ%3D%3D%26mid%3D2247484034%26idx%3D1%26sn%3Dc7e938098b4457b7dd97ab4e348c3a08%26scene%3D21%23wechat_redirect "https://mp.weixin.qq.com/s?__biz=MzYyMTA0NTc5NQ==&mid=2247484034&idx=1&sn=c7e938098b4457b7dd97ab4e348c3a08&scene=21#wechat_redirect")* **欢迎在评论区留下你的想法!** --- **完** ---

相关推荐
NocoBase5 小时前
8 人团队如何效率拉满?——创联云的开发方法论
数据库·低代码·开源
草梅友仁20 小时前
Npm 安全更新与千星沙箱 | 2025 年第 43 周草梅周报
npm·开源·github
说私域1 天前
基于开源链动2+1模式AI智能名片S2B2C商城小程序的市场份额扩张路径研究
人工智能·小程序·开源
CaracalTiger1 天前
告别云端依赖!ComfyUI本地化视频生成实战教程+cpolar实战
python·gpt·开源·aigc·ai编程·1024程序员节·ai-native
ajassi20001 天前
开源 Linux 服务器与中间件(十二)FRP内网穿透应用
linux·服务器·开源·frp
CoderJia程序员甲1 天前
GitHub 热榜项目 - 日榜(2025-10-25)
ai·开源·github·ai编程·github热榜
DisonTangor1 天前
PaddleOCR-VL: 通过0.9B超紧凑视觉语言模型增强多语言文档解析
人工智能·计算机视觉·语言模型·自然语言处理·开源·aigc
牵牛老人1 天前
Qt 中如何操作 Excel 表格:主流开源库说明介绍与 QXlsx 库应用全解析
qt·开源·excel