Lance模型解读

Lance:3B 参数的多模态统一模型,7 种任务一个模型全搞定

字节跳动智能创作实验室开源。3B 参数,78 张 A100 从头训练,支持图像/视频的理解、生成、编辑。

论文:arXiv:2605.18678 | 代码:GitHub | 主页:lance-project.github.io


这个模型在干什么

多模态 AI 领域一直有一个尴尬的现象:图像理解是一个模型,图像生成是另一个模型,视频理解再来一个,视频编辑又得换一个。每个模型都是独立的,部署成本高,切换麻烦,而且这些模型之间无法互相借用知识。

Lance 的思路很直接------用一个 3B 参数的统一模型,把下面七件事全包了

任务 说明
文生图 文本描述 → 图像(768×768)
文生视频 文本描述 → 视频(480p, 12FPS, 最长 121 帧)
图像编辑 指令式修改图像内容
视频编辑 指令式修改视频内容
图像理解 图像问答、描述、推理
视频理解 视频问答、动作识别、场景描述
图转视频 单张图片 → 动态视频

一个模型,输入可以是文本、图像、视频的任意组合,输出可以是文本回答、图像或视频。这在参数量只有 3B 的前提下,相当激进。


核心亮点

1. 小模型,大能量

3B 是什么概念?对比一下市面上其他多模态模型:

模型 参数量 能做的事
Lance 3B 理解 + 生成 + 编辑(图像+视频)
Janus-Pro 7B 理解 + 生成(仅图像)
TUNA 7B 生成(图像+视频)
FLUX.1-dev 12B 生成(仅图像)
Qwen-Image 20B 生成 + 编辑(仅图像)

Lance 参数最少,但任务覆盖最广。

2. 基准测试的成绩不输大模型

基准 Lance(3B) 对比
GenEval(图像生成) 0.90 与 7B TUNA 并列第一,高于 12B FLUX(0.82)
VBench(视频生成) 85.11 统一模型最高,高于 14B Wan2.1(83.69)
GEdit-Bench(图像编辑) 7.30 统一模型最高
MVBench(视频理解) 62.0 统一模型最高,接近专用理解模型

在图像生成的关系推理维度上,Lance 的得分(93.38)甚至超过了 20B 的 Qwen-Image(92.73)。这一项衡量的是"两个苹果比一个橘子大"这种空间关系理解,恰恰是模型从多任务联合训练中获益最多的能力。

3. 训练预算"算是低的"

不超过 128 张 A100 GPU,相比之下很多大模型动辄上千张卡。从零训练一个覆盖七种任务的多模态模型,这个成本对于研究团队来说是可以复现的。


架构是怎么设计的

Lance 并没有从零开始训一个底座模型,而是在两个成熟开源模型的基础上做融合:

  • 理解侧:基于 Qwen2.5-VL-3B-Instruct(阿里的多模态理解模型,Apache-2.0 授权)
  • 生成侧:基于 Wan2.2(阿里的视频生成模型)
  • 训练框架:参考了字节自家的 BAGEL

核心架构可以用这个图来理解:

text 复制代码
          共享交错序列
  (文本、图像、视频上下文交织输入)
                │
     ┌──────────┴──────────┐
     │                     │
  语义 ViT 令牌        VAE 潜变量
  (理解用)           (生成用,含干净/噪声版本)
     │                     │
     └──────────┬──────────┘
                │
    广义 3D 因果注意力 + MaPE

两个关键技术点:

广义 3D 因果注意力:传统的生成和理解模型用的是完全不同的注意力机制。Lance 设计了一套统一的注意力,在交错的文本-图像-视频序列上同时支持因果生成(自回归输出下一个 token)和双向理解(看完整上下文)。

MaPE(减少异质令牌的位置干扰):图像 token 和视频 token 的结构不同,直接混在一起会互相干扰。MaPE 模块通过位置编码策略,让不同类型的视觉令牌在共享序列中各走各的通道,减少"串扰"。


Demo 展示了哪些能力

去官方主页看了一圈 Demo,几项比较有意思的:

多轮一致性编辑

对同一张图连续修改四轮,主体不漂移:

  1. 换发型(短直发 → 法式卷发)
  2. 加发饰(红白花环)
  3. 换背景(湖边童话城堡)
  4. 改动作(挥手)

每轮编辑保持人物身份一致,这在传统 SD 风格的单次编辑里很难做到。

智能视频生成

不是简单的"把文字变成视频",而是支持结构化空间行为规划。比如"蓝色星星按照白色路径穿过迷宫,到达红旗位置",模型需要理解空间约束,生成符合逻辑的轨迹动画。支持 4×4 到 6×6 的网格迷宫。

图转视频

给一张静态照片,生成一段保留原图身份和构图的动态视频。雪豹照片 → 雪豹跳跃;企鹅照片 → 企鹅潜水。这个能力在统一框架下实现,意味着模型天然理解"这张图里是什么",不需要额外的 control 模块。


这样训出来的模型有什么不一样

多任务联合训练不是简单的"把数据集混在一起训"。

论文的核心论点是 Multi-Task Synergy(多任务协同):不同任务之间会互相促进。比如:

  • 理解任务的表现提升,也提升了生成中对 prompt 的指令遵循能力
  • 图像编辑任务反过来让模型对"局部/全局修改"有了更细粒度的控制
  • 视频任务让图像任务中的时序一致性更强

这解释了为什么 3B 的 Lance 在关系推理上打得过 20B 的专用生成模型------理解的"思维"被灌进了生成过程里。


局限与门槛

推理门槛高

至少需要 一张 40GB 以上显存的 GPU。为什么 3B 参数要吃这么多显存?

  • 权重只有约 6GB(BF16),但 VAE 编解码器、生成时的激活值、CFG 双路径推理、视频 3D 注意力的中间缓存加起来远超权重本身
  • RTX 4090(24GB)跑不起来,需要 A100 40GB 起步

目前没有量化方案或低显存模式。 个人用户暂时只能通过 HuggingFace Space 在线体验。

视频质量有限

原生输出 480p @ 12FPS。主页 Demo 看起来流畅是因为经过了 2× 超分辨率 + 2× 帧插值后处理。

微调代码尚未开源

目前只有推理代码。训练和 fine-tune 还在 roadmap 里,想在自己的数据上做定制训练还需要等。

研究项目,非产品

官方明确说明输出质量可能因场景而异,不是一个"开箱即用"的完整产品。


为什么值得关注

先抛开参数量和 benchmark 不谈,Lance 代表的方向才是有意思的:

多模态模型正在从"专才"走向"通才"。一年前,图像生成和图像理解还是两条技术路线;半年前,理解和生成开始在一个模型里共存;现在,图像和视频的理解、生成、编辑全部统一了。

如果这个趋势继续下去,未来的多模态模型可能像 GPT 对文本那样------懂图、能画、会看视频、能剪视频,全部在同一个模型里完成。Lance 用 3B 参数证明了这个方向是可行的,而且不需要天文数字的算力。

相关推荐
神奇小汤圆1 小时前
深入理解MySQL事务隔离级别:MVCC机制与Next-Key Lock如何解决幻读问题?
后端
万少1 小时前
一封邮件,让我重新打开了搁置半年的鸿蒙应用
前端·javascript·后端
Java编程爱好者2 小时前
手把手看懂 Java 字节码:讲透 Integer 判等、静态方法重写与 try-finally 核心底层
后端
踏浪无痕2 小时前
k8s发布服务,nacos未服务未下线紧急处理流程
后端
TYKJ0232 小时前
物理安全:顶级机房为什么需要刷脸+指纹+工牌
后端
程序员黑豆2 小时前
AI全栈开发 - Java:注释
前端·后端·ai编程
小二·2 小时前
Spring Boot 3 + Vue 3 全栈开发实战
vue.js·spring boot·后端
仿生joe会梦见漫天的大雪吗2 小时前
CTF学习笔记03:密码口令 —— 从弱口令到字典爆破
后端
自进化Agent智能体2 小时前
从零到一玩转Hermes Agent:VPS部署 × 模型配置 × 记忆架构 × 多Agent协作
后端