Lance:3B 参数的多模态统一模型,7 种任务一个模型全搞定
字节跳动智能创作实验室开源。3B 参数,78 张 A100 从头训练,支持图像/视频的理解、生成、编辑。
论文:arXiv:2605.18678 | 代码:GitHub | 主页:lance-project.github.io
这个模型在干什么
多模态 AI 领域一直有一个尴尬的现象:图像理解是一个模型,图像生成是另一个模型,视频理解再来一个,视频编辑又得换一个。每个模型都是独立的,部署成本高,切换麻烦,而且这些模型之间无法互相借用知识。
Lance 的思路很直接------用一个 3B 参数的统一模型,把下面七件事全包了:
| 任务 | 说明 |
|---|---|
| 文生图 | 文本描述 → 图像(768×768) |
| 文生视频 | 文本描述 → 视频(480p, 12FPS, 最长 121 帧) |
| 图像编辑 | 指令式修改图像内容 |
| 视频编辑 | 指令式修改视频内容 |
| 图像理解 | 图像问答、描述、推理 |
| 视频理解 | 视频问答、动作识别、场景描述 |
| 图转视频 | 单张图片 → 动态视频 |
一个模型,输入可以是文本、图像、视频的任意组合,输出可以是文本回答、图像或视频。这在参数量只有 3B 的前提下,相当激进。
核心亮点
1. 小模型,大能量
3B 是什么概念?对比一下市面上其他多模态模型:
| 模型 | 参数量 | 能做的事 |
|---|---|---|
| Lance | 3B | 理解 + 生成 + 编辑(图像+视频) |
| Janus-Pro | 7B | 理解 + 生成(仅图像) |
| TUNA | 7B | 生成(图像+视频) |
| FLUX.1-dev | 12B | 生成(仅图像) |
| Qwen-Image | 20B | 生成 + 编辑(仅图像) |
Lance 参数最少,但任务覆盖最广。
2. 基准测试的成绩不输大模型
| 基准 | Lance(3B) | 对比 |
|---|---|---|
| GenEval(图像生成) | 0.90 | 与 7B TUNA 并列第一,高于 12B FLUX(0.82) |
| VBench(视频生成) | 85.11 | 统一模型最高,高于 14B Wan2.1(83.69) |
| GEdit-Bench(图像编辑) | 7.30 | 统一模型最高 |
| MVBench(视频理解) | 62.0 | 统一模型最高,接近专用理解模型 |
在图像生成的关系推理维度上,Lance 的得分(93.38)甚至超过了 20B 的 Qwen-Image(92.73)。这一项衡量的是"两个苹果比一个橘子大"这种空间关系理解,恰恰是模型从多任务联合训练中获益最多的能力。
3. 训练预算"算是低的"
不超过 128 张 A100 GPU,相比之下很多大模型动辄上千张卡。从零训练一个覆盖七种任务的多模态模型,这个成本对于研究团队来说是可以复现的。
架构是怎么设计的
Lance 并没有从零开始训一个底座模型,而是在两个成熟开源模型的基础上做融合:
- 理解侧:基于 Qwen2.5-VL-3B-Instruct(阿里的多模态理解模型,Apache-2.0 授权)
- 生成侧:基于 Wan2.2(阿里的视频生成模型)
- 训练框架:参考了字节自家的 BAGEL
核心架构可以用这个图来理解:
text
共享交错序列
(文本、图像、视频上下文交织输入)
│
┌──────────┴──────────┐
│ │
语义 ViT 令牌 VAE 潜变量
(理解用) (生成用,含干净/噪声版本)
│ │
└──────────┬──────────┘
│
广义 3D 因果注意力 + MaPE
两个关键技术点:
广义 3D 因果注意力:传统的生成和理解模型用的是完全不同的注意力机制。Lance 设计了一套统一的注意力,在交错的文本-图像-视频序列上同时支持因果生成(自回归输出下一个 token)和双向理解(看完整上下文)。
MaPE(减少异质令牌的位置干扰):图像 token 和视频 token 的结构不同,直接混在一起会互相干扰。MaPE 模块通过位置编码策略,让不同类型的视觉令牌在共享序列中各走各的通道,减少"串扰"。
Demo 展示了哪些能力
去官方主页看了一圈 Demo,几项比较有意思的:
多轮一致性编辑
对同一张图连续修改四轮,主体不漂移:
- 换发型(短直发 → 法式卷发)
- 加发饰(红白花环)
- 换背景(湖边童话城堡)
- 改动作(挥手)
每轮编辑保持人物身份一致,这在传统 SD 风格的单次编辑里很难做到。
智能视频生成
不是简单的"把文字变成视频",而是支持结构化空间行为规划。比如"蓝色星星按照白色路径穿过迷宫,到达红旗位置",模型需要理解空间约束,生成符合逻辑的轨迹动画。支持 4×4 到 6×6 的网格迷宫。
图转视频
给一张静态照片,生成一段保留原图身份和构图的动态视频。雪豹照片 → 雪豹跳跃;企鹅照片 → 企鹅潜水。这个能力在统一框架下实现,意味着模型天然理解"这张图里是什么",不需要额外的 control 模块。
这样训出来的模型有什么不一样
多任务联合训练不是简单的"把数据集混在一起训"。
论文的核心论点是 Multi-Task Synergy(多任务协同):不同任务之间会互相促进。比如:
- 理解任务的表现提升,也提升了生成中对 prompt 的指令遵循能力
- 图像编辑任务反过来让模型对"局部/全局修改"有了更细粒度的控制
- 视频任务让图像任务中的时序一致性更强
这解释了为什么 3B 的 Lance 在关系推理上打得过 20B 的专用生成模型------理解的"思维"被灌进了生成过程里。
局限与门槛
推理门槛高
至少需要 一张 40GB 以上显存的 GPU。为什么 3B 参数要吃这么多显存?
- 权重只有约 6GB(BF16),但 VAE 编解码器、生成时的激活值、CFG 双路径推理、视频 3D 注意力的中间缓存加起来远超权重本身
- RTX 4090(24GB)跑不起来,需要 A100 40GB 起步
目前没有量化方案或低显存模式。 个人用户暂时只能通过 HuggingFace Space 在线体验。
视频质量有限
原生输出 480p @ 12FPS。主页 Demo 看起来流畅是因为经过了 2× 超分辨率 + 2× 帧插值后处理。
微调代码尚未开源
目前只有推理代码。训练和 fine-tune 还在 roadmap 里,想在自己的数据上做定制训练还需要等。
研究项目,非产品
官方明确说明输出质量可能因场景而异,不是一个"开箱即用"的完整产品。
为什么值得关注
先抛开参数量和 benchmark 不谈,Lance 代表的方向才是有意思的:
多模态模型正在从"专才"走向"通才"。一年前,图像生成和图像理解还是两条技术路线;半年前,理解和生成开始在一个模型里共存;现在,图像和视频的理解、生成、编辑全部统一了。
如果这个趋势继续下去,未来的多模态模型可能像 GPT 对文本那样------懂图、能画、会看视频、能剪视频,全部在同一个模型里完成。Lance 用 3B 参数证明了这个方向是可行的,而且不需要天文数字的算力。