Lance模型解读 - 技术栈

Lance：3B 参数的多模态统一模型，7 种任务一个模型全搞定

字节跳动智能创作实验室开源。3B 参数，78 张 A100 从头训练，支持图像/视频的理解、生成、编辑。

论文：arXiv:2605.18678 ｜代码：GitHub ｜主页：lance-project.github.io

这个模型在干什么

多模态 AI 领域一直有一个尴尬的现象：图像理解是一个模型，图像生成是另一个模型，视频理解再来一个，视频编辑又得换一个。每个模型都是独立的，部署成本高，切换麻烦，而且这些模型之间无法互相借用知识。

Lance 的思路很直接------用一个 3B 参数的统一模型，把下面七件事全包了：

任务	说明
文生图	文本描述 → 图像（768×768）
文生视频	文本描述 → 视频（480p, 12FPS, 最长 121 帧）
图像编辑	指令式修改图像内容
视频编辑	指令式修改视频内容
图像理解	图像问答、描述、推理
视频理解	视频问答、动作识别、场景描述
图转视频	单张图片 → 动态视频

一个模型，输入可以是文本、图像、视频的任意组合，输出可以是文本回答、图像或视频。这在参数量只有 3B 的前提下，相当激进。

核心亮点

1. 小模型，大能量

3B 是什么概念？对比一下市面上其他多模态模型：

模型	参数量	能做的事
Lance	3B	理解 + 生成 + 编辑（图像+视频）
Janus-Pro	7B	理解 + 生成（仅图像）
TUNA	7B	生成（图像+视频）
FLUX.1-dev	12B	生成（仅图像）
Qwen-Image	20B	生成 + 编辑（仅图像）

Lance 参数最少，但任务覆盖最广。

2. 基准测试的成绩不输大模型

基准	Lance（3B）	对比
GenEval（图像生成）	0.90	与 7B TUNA 并列第一，高于 12B FLUX（0.82）
VBench（视频生成）	85.11	统一模型最高，高于 14B Wan2.1（83.69）
GEdit-Bench（图像编辑）	7.30	统一模型最高
MVBench（视频理解）	62.0	统一模型最高，接近专用理解模型

在图像生成的关系推理维度上，Lance 的得分（93.38）甚至超过了 20B 的 Qwen-Image（92.73）。这一项衡量的是"两个苹果比一个橘子大"这种空间关系理解，恰恰是模型从多任务联合训练中获益最多的能力。

3. 训练预算"算是低的"

不超过 128 张 A100 GPU，相比之下很多大模型动辄上千张卡。从零训练一个覆盖七种任务的多模态模型，这个成本对于研究团队来说是可以复现的。

架构是怎么设计的

Lance 并没有从零开始训一个底座模型，而是在两个成熟开源模型的基础上做融合：

理解侧：基于 Qwen2.5-VL-3B-Instruct（阿里的多模态理解模型，Apache-2.0 授权）
生成侧：基于 Wan2.2（阿里的视频生成模型）
训练框架：参考了字节自家的 BAGEL

核心架构可以用这个图来理解：

text 复制代码

          共享交错序列
  （文本、图像、视频上下文交织输入）
                │
     ┌──────────┴──────────┐
     │                     │
  语义 ViT 令牌        VAE 潜变量
  （理解用）           （生成用，含干净/噪声版本）
     │                     │
     └──────────┬──────────┘
                │
    广义 3D 因果注意力 + MaPE

两个关键技术点：

广义 3D 因果注意力：传统的生成和理解模型用的是完全不同的注意力机制。Lance 设计了一套统一的注意力，在交错的文本-图像-视频序列上同时支持因果生成（自回归输出下一个 token）和双向理解（看完整上下文）。

MaPE（减少异质令牌的位置干扰）：图像 token 和视频 token 的结构不同，直接混在一起会互相干扰。MaPE 模块通过位置编码策略，让不同类型的视觉令牌在共享序列中各走各的通道，减少"串扰"。

Demo 展示了哪些能力

去官方主页看了一圈 Demo，几项比较有意思的：

多轮一致性编辑

对同一张图连续修改四轮，主体不漂移：

换发型（短直发 → 法式卷发）
加发饰（红白花环）
换背景（湖边童话城堡）
改动作（挥手）

每轮编辑保持人物身份一致，这在传统 SD 风格的单次编辑里很难做到。

智能视频生成

不是简单的"把文字变成视频"，而是支持结构化空间行为规划。比如"蓝色星星按照白色路径穿过迷宫，到达红旗位置"，模型需要理解空间约束，生成符合逻辑的轨迹动画。支持 4×4 到 6×6 的网格迷宫。

图转视频

给一张静态照片，生成一段保留原图身份和构图的动态视频。雪豹照片 → 雪豹跳跃；企鹅照片 → 企鹅潜水。这个能力在统一框架下实现，意味着模型天然理解"这张图里是什么"，不需要额外的 control 模块。

这样训出来的模型有什么不一样

多任务联合训练不是简单的"把数据集混在一起训"。

论文的核心论点是 Multi-Task Synergy（多任务协同）：不同任务之间会互相促进。比如：

理解任务的表现提升，也提升了生成中对 prompt 的指令遵循能力
图像编辑任务反过来让模型对"局部/全局修改"有了更细粒度的控制
视频任务让图像任务中的时序一致性更强

这解释了为什么 3B 的 Lance 在关系推理上打得过 20B 的专用生成模型------理解的"思维"被灌进了生成过程里。

局限与门槛

推理门槛高

至少需要 一张 40GB 以上显存的 GPU。为什么 3B 参数要吃这么多显存？

权重只有约 6GB（BF16），但 VAE 编解码器、生成时的激活值、CFG 双路径推理、视频 3D 注意力的中间缓存加起来远超权重本身
RTX 4090（24GB）跑不起来，需要 A100 40GB 起步

目前没有量化方案或低显存模式。 个人用户暂时只能通过 HuggingFace Space 在线体验。

视频质量有限

原生输出 480p @ 12FPS。主页 Demo 看起来流畅是因为经过了 2× 超分辨率 + 2× 帧插值后处理。

微调代码尚未开源

目前只有推理代码。训练和 fine-tune 还在 roadmap 里，想在自己的数据上做定制训练还需要等。

研究项目，非产品

官方明确说明输出质量可能因场景而异，不是一个"开箱即用"的完整产品。

为什么值得关注

先抛开参数量和 benchmark 不谈，Lance 代表的方向才是有意思的：

多模态模型正在从"专才"走向"通才"。一年前，图像生成和图像理解还是两条技术路线；半年前，理解和生成开始在一个模型里共存；现在，图像和视频的理解、生成、编辑全部统一了。

如果这个趋势继续下去，未来的多模态模型可能像 GPT 对文本那样------懂图、能画、会看视频、能剪视频，全部在同一个模型里完成。Lance 用 3B 参数证明了这个方向是可行的，而且不需要天文数字的算力。