ByteDance Research | 原生视频/图像生成理解编辑统一模型Lance发布,3B All-in-One Model助力学术开源生态

Lance 是 ByteDance Intelligent Creation Lab 推出的原生统一多模态模型,以 3B 激活参数和多任务协同训练,在单一原生统一框架中支持图像/视频理解、生成与编辑,兼顾资源效率、能力广度与跨任务泛化。

基于 3B 激活参数量(总参数 6B),以及最大 128-GPU 训练预算下,Lance 在多个统一多模态基准上取得强性能:VBench 85.11、MVBench 62.0、GenEval 0.90、GEdit-Bench 7.30。相关主页、论文、代码与模型资源已发布,欢迎社区关注与体验。

Homepage:
lance-project.github.io

arXiv:
arxiv.org/abs/2605.18...

Code (GitHub):
github.com/bytedance/L...

Code (HuggingFace):
huggingface.co/bytedance-r...

多模态理解和生成能力的统一,一直是业界关注的重点方向。然而,当前主流的学术研究模型仍面临两方面不足:

  1. 模型规模与成本较高。 许多统一模型依赖更高参数量来兼顾理解、生成与编辑,训练和部署成本较高。
  2. 任务覆盖有限。 多数工作仍集中在文本-图像任务或部分能力组合上,对视频统一模型领域探索不足。

此外,对现有多模态统一模型的统计结果显示,任务覆盖更完整的统一模型更有可能表现出 emergent generalization(涌现泛化)能力。这意味着,多任务协同并非简单的能力堆叠,而可能是激发统一模型进一步潜能的重要机制。

基于这一观察,Lance 将 X2T、X2I、X2V 任务放入同一原生模型中进行联合训练,覆盖图像理解、视频理解、文本到图像/视频生成、图像/视频编辑、主体驱动图像/视频生成等多重任务。Table 1 对比了代表性统一多模态模型的任务覆盖范围,Lance 在图像/视频理解、图像/视频生成、编辑、主体驱动生成以及 emergent generalization 等维度上提供了更完整的显式支持。

统一多模态模型任务覆盖范围对比

团队开源了 Lance,同 AI 社区分享团队在这一领域的研究探索。

Lance 位列 Hugging Face Trending 前三

1. Lance 能力展示:面向视频与图像的多任务统一支持

Lance 的核心优势之一,是在 3B 模型规模下提供更完整的多任务支持。它不是将若干模块简单拼接,而是在统一上下文空间中联合建模不同模态与任务,使理解、生成和编辑能力能够相互促进。

视频生成

Lance 在视频生成中能够准确遵循复杂文本指令,生成具备自然运动、稳定时序一致性、清晰视觉细节和较强语义表达的视频内容。


视频生成:复杂文本指令下的视频生成示例

视频编辑

Lance 在视频编辑中能够根据文本指令实现对象替换、背景变化、风格迁移与细粒度属性修改,同时保持主体身份、画面结构和运动过程的时序一致性,并支持多轮一致性编辑。

source video

replace short straight hair with French curly hair

add a floral headband with red and white flowers to her hair

change the background to a fairytale castle by a lake

视频编辑:多轮一致性编辑示例

视频理解

Lance 在视频理解中能够准确识别动态场景中的人物、物体、动作与时序变化,并结合视觉细节、OCR 信息和上下文语义生成细致可靠的描述与问答结果。

视频理解:视频问答与细粒度时序理解示例

图像生成

Lance 可根据复杂文本指令生成较高质量、视觉自然的图像内容,并在数量关系、属性绑定、空间布局和风格控制等方面展现出较强的组合生成能力。

图像生成:复杂文本指令下的图像生成示例

图像编辑

Lance 可基于自然语言指令完成图像中的主体增删、局部替换、风格迁移、动作调整和自由形式编辑,并在修改过程中较好地保持主体身份、画面结构和视觉一致性。

图像编辑:多类型图像编辑与主体一致性生成示例

图像理解

Lance 具备较强的图像理解能力,可准确识别图像中的物体、人物、场景、文字信息和空间关系,并结合视觉细节完成内容描述、OCR 理解和问答推理。

图像理解:OCR、知识问答与多图理解示例

2. 方法核心:统一上下文建模 + 解耦能力路径

Lance 整体架构示意图

Lance 的核心设计围绕两个原则展开:一方面,通过统一上下文建模,将文本、图像和视频组织为共享的交错多模态序列,使不同任务能够在同一上下文空间中进行信息交互;另一方面,通过解耦能力路径,为理解和生成分别分配专门化的表征与模型容量,避免异质任务在优化目标和视觉表示上相互干扰。

具体来看,Lance 采用 dual-stream mixture-of-experts 架构:理解路径主要处理文本 token 与语义视觉 token,用于图像/视频理解、问答和推理;生成路径主要处理 VAE latent token,用于图像/视频生成与编辑。两条路径共享统一的交错多模态上下文,但在能力建模上保持解耦,从而兼顾跨任务交互与任务专门化。

此外,为了更好地协调统一序列中的异构视觉 token,Lance 引入了 Modality-Aware Rotary Positional Encoding(MaPE) 。在统一多模态训练中,同一序列中可能同时包含用于理解的语义 ViT token、用于生成条件的 clean VAE token,以及作为生成目标的 noisy VAE token。它们来源不同、功能不同,如果仅使用标准位置编码,容易造成位置空间中的角色混淆。

MaPE 通过在位置编码的时间维度中加入模态/功能组信息,使得模型在不破坏图像的空间结构和视频的时序关系的同时,能够显式区分不同视觉 token 的作用。整体而言,MaPE 有助于缓解多任务联合优化过程中的异构视觉 token 之间的位置干扰,并提升跨任务上下文对齐能力。

MaPE 通过显式区分异构视觉 token 的功能角色,提升统一上下文中的跨任务对齐能力

3. 多任务协同训练:激发统一模型的进一步潜能

训练方面,Lance 采用分阶段多任务训练范式,将不同任务统一到 X2T、X2I、X2V 的任务形式中,并通过能力导向目标与自适应数据调度逐步增强模型能力。

整体训练流程包括预训练、持续训练、监督微调和强化学习阶段。预训练建立基础图像/视频理解与生成能力;持续训练扩展到更多交错多任务数据,促进跨任务迁移;监督微调用高质量数据强化指令跟随、视觉保真、编辑准确性和身份一致性;强化学习进一步优化图像生成中的细粒度文本约束、图文一致性和组合遵循能力。

为了进一步分析模型能力随训练推进的变化,Lance 对不同训练 token 预算下的模型版本进行了动态评估。结果显示,图像生成和视频生成能力随着训练 token 增加呈现出较一致的 scaling trend:在早期预训练阶段,模型快速获得基础生成能力;随着持续训练和监督微调推进,模型进一步提升复杂 prompt 对齐、视觉保真度以及视频时序一致性。

Lance 图像与视频生成能力随训练 token 增加持续提升,CT阶段的增长体现出多任务协同训练对统一模型能力演化的促进作用

值得注意的是,持续训练阶段在不引入额外的基础生成类数据,仅引入更多图像/视频编辑、主体驱动生成等多任务数据的情况下,模型的基础生成能力仍然继续提升。这说明多任务数据并未削弱基础生成能力,反而通过更丰富的任务监督促进了视觉组合、语义对齐和跨任务泛化能力的发展。

消融实验也进一步表明,多任务生成数据都能为生成能力和理解能力均带来增益。结合 Table 1 中关于 emergent generalization 的观察,Lance 的结果进一步支持这一观点:多任务协同不是能力的线性叠加,而是帮助统一模型在跨模态、跨任务边界上形成迁移与泛化的重要路径。

4. 性能评估

在图像生成方面,Lance 在 GenEval 上达到 0.90,与统一模型中的最佳总体分数持平,并在计数、颜色、空间位置等组合生成维度表现突出。在 DPG-Bench 上,Lance 在复杂 prompt 下展现出较好的关系建模能力。

图像生成:GenEval 与 DPG-Bench 指标对比

在视频生成方面,Lance 在 VBench 上取得 85.11 的总体分数,在统一模型中表现领先,并在视觉质量、对象语义对齐、颜色一致性、空间关系、场景理解、时序风格等维度展现出稳定性能。这说明 Lance 的统一框架不仅适用于图像生成,也能够扩展到更具时序建模难度的视频生成任务。

视频生成:VBench 指标对比

在多模态编辑方面,Lance 在图像编辑基准 GEdit-Bench 上取得 7.30 Avg/G_O,在统一模型中取得最佳平均表现,覆盖背景改变、材质修改、动作改变、人像美化、主体移除、替换和色调迁移等多类编辑任务。

图像编辑:GEdit-Bench 指标对比

在多模态理解方面,Lance 在视频理解基准 MVBench 上达到 62.0,在已有统一多模态模型中取得最佳总体分数,相比第二名 Show-o2 7B 约有 11.3% 的相对提升,同时保持生成和编辑能力。这表明多任务统一训练可以在引入视频生成和编辑能力的同时,保留较强的视频语义理解与时序推理能力。

视频理解:MVBench 指标对比

目前,ByteDance 团队已开放 Lance 的模型权重和代码,欢迎大家体验和反馈。

Lance 以 3B 激活参数量统一支持图像/视频理解、生成与编辑,可作为多模态理解、多模态生成及理解-生成统一建模研究的轻量级 backbone。其参数规模也更适合实验室规模的 SFT、RL 等 post-training 探索,欢迎社区基于 Lance 开展更多高效统一多模态模型研究。

相关推荐
cd_949217216 小时前
2026年扫描电子显微镜选型指南:易姆科特的核心优势与产品矩阵解析
人工智能·线性代数·矩阵
云烟成雨TD6 小时前
Spring AI Alibaba 1.x 系列【62】时光旅行(Time-Travel)
java·人工智能·spring
玄米乌龙茶1236 小时前
LLM成长笔记(十二):质量评估与可观测性
大数据·人工智能·笔记
LaughingZhu7 小时前
Product Hunt 每日热榜 | 2026-05-25
前端·人工智能·经验分享·chatgpt·html
冬奇Lab7 小时前
一天一个开源项目(第112篇):Knowledge Work Plugins - Anthropic 官方发布的职能专家插件库
人工智能·开源·claude
冬奇Lab7 小时前
Agent系列(五):意图识别与路由——让 Agent 听懂用户在说什么
人工智能·llm·agent
hnult7 小时前
考试云:九重防作弊体系与六大AI能力,打造安全智能在线笔试系统云平台
人工智能·笔记·安全
青椒大仙KI117 小时前
线代讲解0
人工智能·线性代数
可信AI Coding7 小时前
AI产业周报|AI安全需求将爆发式增长
人工智能·ai·大模型