字节跳动智能创作实验室提出仅3B激活参数的统一多模态框架
arXiv: 2605.18678 ByteDance
核心看点
字节跳动智能创作实验室近期提出了一种名为Lance的轻量级原生统一多模态模型。该模型仅采用3B激活参数,在128张GPU的训练预算下,实现了对图像与视频的理解、生成与编辑任务的全面覆盖。Lance的核心创新在于通过多任务协同训练,将多模态理解与生成本质上统一在一个框架内,而非简单地将不同能力进行拼接。实验结果表明,Lance在图像生成、视频生成、多模态编辑及视频理解等多个基准测试中,均取得了开源统一模型中的领先表现,部分指标甚至接近或超过专用的大规模生成模型。

一、多模态统一建模的时代命题
近年来,多模态人工智能正加速向原生统一范式演进。以大型语言模型为代表的序列建模方法,在图像与视频理解领域取得了长足进步;与此同时,基于扩散模型与流匹配框架的视觉生成技术,也在高保真图像与视频合成方面不断突破。然而,现有系统大多沿循两条独立路径发展:理解模型侧重语义推理与指令遵循,生成模型则聚焦视觉合成与时空动态建模。如何在单一框架内实现这两类能力的有机统一,始终是构建具备更强通用性与实用价值的多模态基础模型的核心挑战。
当前已有的统一多模态模型虽然在文本到图像、文本到视频等方向上取得了积极进展,但仍面临两个根本性局限。其一,理解与生成对视觉表征的需求存在本质差异:理解任务受益于与语言对齐的高层语义特征,而生成任务则需要保留纹理、几何与时序动态的低层连续表征。现有方法或采用统一视觉表征以简化建模,却在语义推理与生成质量之间难以平衡;或采用解耦表征以缓解失配,但增加了架构与优化的复杂度。其二,现有统一模型在任务覆盖与训练 formulation 上仍然有限,多数方法仍局限于文本到图像域或部分任务组合,对完整的图像与视频理解及生成空间探索不足。
在此背景下,字节跳动智能创作实验室的研究团队提出了Lance模型。该模型明确支持图像与视频的理解、生成与编辑全谱系任务,将多任务学习视为促进跨模态与跨任务迁移的机制,而非简单的能力堆砌。通过统一上下文建模与解耦能力路径的有机结合,Lance在轻量级参数规模下实现了对多模态任务的广泛覆盖与优异性能。

图1 Lance在图像生成(GenEval与GEdit)和视频生成(VBench)基准上的综合表现对比
二、Lance的核心架构设计
Lance的设计围绕两大核心原则展开:统一上下文建模与解耦能力路径。前者通过交错多模态序列建模与多任务协同优化,实现跨任务的上下文共享;后者则针对理解与生成本质不同的表征需求,在架构与训练层面进行适度分离,以避免异构目标之间的相互干扰。
2.1 双专家混合架构
在架构层面,Lance采用基于Qwen2.5-VL初始化的双专家混合架构。具体而言,模型包含两个专门化的专家路径:理解专家负责处理文本与语义视觉token,执行多模态推理与文本生成任务;生成专家则负责处理VAE潜空间token,执行视觉合成与编辑任务。两个专家共享同一个交错多模态上下文,从而保留跨任务的交互能力,同时避免异构目标在同一参数空间内的直接竞争。
对于输入侧,Lance构建了统一的交错多模态序列。文本指令通过Qwen2.5-VL的语言嵌入层进行编码;面向理解的视觉输入采用Qwen2.5-VL的ViT编码器,生成紧凑的语义视觉token;面向生成的视觉输入则通过Wan2.2的3D因果VAE编码器,编码为保留低层外观与时序结构的连续潜变量。文本token、ViT语义token、干净VAE潜token与带噪VAE潜token在统一序列中组织,通过广义三维因果注意力机制进行联合建模。

图2 Lance整体架构概览:统一MaPE增强的多模态上下文序列与双专家路径
2.2 模态感知旋转位置编码
统一多模态训练将异构视觉token组置于同一交错序列中,包括ViT语义token、干净VAE条件token与带噪VAE目标token。这些token不仅来源不同,功能角色也存在差异:语义token为理解提供语言对齐的视觉线索,干净VAE潜变量充当视觉条件,带噪VAE潜变量则是生成优化的目标。标准的3D-RoPE虽然能够编码时空布局,但并未显式区分这些异构token组,可能导致位置歧义并削弱跨任务对齐。
针对这一问题,Lance引入了模态感知旋转位置编码(Modality-Aware Rotary Positional Encoding,MaPE)。该方法在时间维度上为不同模态组引入固定的偏移步长,使语义token、条件token与目标token在全局位置空间中明确分离,同时保持空间坐标不变以保留图像与视频的内部空间布局。由于偏移量是同一模态组内共享的常数平移,视频潜变量的时间顺序与相对距离得以完全保留,从而在区分异构视觉token的同时维持空间一致性与时间连贯性。

图3 MaPE示意图:不同模态token组在时间维度上获得独立的位置偏移
三、四阶段渐进式训练策略
为了在多任务环境中逐步建立并平衡多模态理解与生成能力,Lance设计了一套四阶段渐进式训练流程,包括预训练、持续训练、监督微调与强化学习。每个阶段在数据配比、任务分布与优化目标上均有针对性设计,形成从基础能力建立到精细指令遵循的完整训练链路。
3.1 预训练阶段:建立基础对齐
预训练阶段旨在建立初步的多模态对齐与基本视觉生成能力。此阶段冻结VAE与ViT编码器,优化多模态主干、QK-Norm模块与MLP连接器。训练数据包括约10亿规模的图像文本对和约1.4亿规模的视频文本对,涵盖自然场景、人物、物体、知识导向与风格化内容等多样化视觉域。为提升可扩展性,Lance采用从192p到360p再到480p的渐进式分辨率课程,并在图像与视频采样比例上采用约1:4的配比,以兼顾视频建模的更大难度并强化时序推理能力。
3.2 持续训练阶段:扩展任务空间
持续训练阶段将模型从基础配对监督扩展到统一的多任务多模态学习。此阶段引入更丰富的交错多模态数据与更多样的输入输出映射,显著扩展任务空间并提升任务感知的多模态能力。在理解侧,引入约273万条交错多模态理解样本,覆盖纯文本理解、图像描述、分类、对话、视觉定位、推理、视觉问答与光学字符识别等任务。在生成侧,引入大规模的任意到图像与任意到视频数据,包括280万条图像编辑样本、260万条视频编辑样本,以及360万条主体驱动图像生成样本和100万条主体驱动视频生成样本。
为适应任务多样性的增加,Lance采用渐进式数据混合策略,逐步提升编辑与主体驱动生成等更具挑战性任务的采样比例,同时相应降低简单描述式监督的比例。此外,研究团队还引入了任务特定的系统提示,为理解与生成任务提供显式的任务先验,引导任务特定的输入输出格式,同时保持统一序列建模的简洁性。

图4 理解任务的系统提示设计示例
3.3 监督微调与强化学习阶段
监督微调阶段使用高质量、任务对齐的监督数据,在降低学习率的前提下对模型进行精修。与预训练和持续训练侧重能力获取与任务扩展不同,微调阶段强调指令忠实度、视觉一致性、编辑精度与身份保持,提升可控性与下游任务表现。高质量数据包括19万条高质量图像描述、5000条高质量视频描述,以及高质量生成与编辑样本。
强化学习阶段则进一步优化图像生成能力,通过任务特定的奖励直接优化生成行为。该阶段采用Group Relative Policy Optimization方法,使用PaddleOCR作为奖励模型评估生成图像与文本约束之间的一致性,从而直接反馈文本渲染质量与图文对齐度,改善监督微调难以完全捕捉的方面。

图5 生成任务的系统提示设计示例
四、全面的实验验证
研究团队在图像生成、视频生成、多模态编辑与视频理解等多个基准测试上对Lance进行了全面评估。实验结果表明,Lance在仅3B激活参数的条件下,取得了开源统一模型中的领先性能,部分指标接近甚至超过专用的大规模生成模型。
4.1 图像生成:轻量级架构的强竞争力
在图像生成基准GenEval与DPG-Bench上,Lance取得了统一模型中的最优总体得分0.90,与当前最优的统一模型持平。特别是在计数、颜色与空间位置等组合能力维度上,Lance展现出强劲性能。在DPG-Bench上,Lance在关系建模方面表现尤为突出,表明其能够在复杂提示下保持细粒度语义一致性。定性对比显示,与7B参数的Bagel、1.7B参数的InternVL-U等开源统一基线相比,Lance在视觉美学与图文对齐方面具有明显优势;与20B规模的Qwen-Image及商业闭源模型Nano Banana相比,Lance也展现出可媲美的生成质量。

图6 文本到图像生成定性对比:Lance在复杂组合提示下的精确渲染能力

表1 图像生成基准测试(GenEval与DPG-Bench)结果对比
4.2 视频生成:统一框架的时空建模能力
在视频生成基准VBench上,Lance以85.11的总分位列统一模型之首,在质量导向与语义导向的多个维度上均表现优异,包括视觉质量、物体定位、颜色一致性、空间关系、场景理解与时间风格等。这表明Lance所提出的统一框架能够有效支持组合式视频生成与文本视频对齐,并能自然地从图像生成扩展到更具挑战性的时空生成任务。
定性对比实验进一步验证了Lance在复杂场景下的生成能力。在涉及复杂人物交互与显式镜头转换的提示下,Lance能够准确遵循指令,生成具有稳定视觉纹理与一致时间演化的视频片段。与HunyuanVideo1.5、Wan2.2及UniVideo等基线相比,Lance在语义忠实度、运动连贯性与视觉质量方面均展现出竞争优势。

图7 文本到视频生成定性对比:复杂人物交互与镜头运动场景

表2 视频生成基准测试(VBench)结果对比
4.3 多模态编辑:精确操控与一致保持
在图像编辑基准GEdit-Bench上,Lance以7.30的平均分取得统一模型中的最佳表现。特别是在背景替换、材质修改、运动变化、人像美化、主体移除、主体替换与色调迁移等关键编辑类别中,Lance均获得最优或接近最优的成绩。这表明统一框架能够有效支持广泛的图像编辑操作。视频编辑方面,Lance在实现精确多属性修改的同时保持了自然的运动动态,例如在最后展示的案例中,人物手持杯子的手部动作在时间维度上保持了连贯性,体现出统一模型在空间真实感与时间一致性方面的潜力。

图8 多模态编辑定性对比:图像编辑的结构保持与视频编辑的时间连贯性

表3 图像编辑基准测试(GEdit-Bench)结果对比
4.4 视频理解:统一训练的理解能力保持
在视频理解基准MVBench上,Lance以62.0的总分位居现有统一多模态模型之首,相比第二优的Show-o2 7B模型实现了约11.3%的相对提升。Lance在动作定位、外观变化、动作计数与场景转换等多个维度上表现尤为突出。值得注意的是,Lance在仅使用一半甚至更少参数的情况下,超越了大多数专用理解模型,这表明统一多任务训练能够在支持生成与编辑能力的同时,保持强大的视频理解能力,甚至通过跨任务协同实现相互增强。

表4 视频理解基准测试(MVBench)结果对比
五、训练动力学与消融分析
为了深入理解模型能力在训练过程中的演化规律,研究团队对不同训练token预算下的模型变体进行了定量与定性评估。结果显示,图像与视频生成性能随训练token增加呈现 broadly consistent 的扩展趋势:在预训练早期阶段快速增益,随后进入缓慢增长阶段。这表明大规模配对训练首先建立核心生成能力,而后续token主要用于精修提示对齐、视觉保真度与时间一致性。
持续训练阶段虽然主要引入编辑与指令遵循等多任务数据,而非额外的纯生成数据,但生成能力仍获得进一步提升。这表明多任务整合不仅强化了编辑与指令遵循行为,还带来了对视觉生成的正向迁移,进一步验证了多任务协同在提升统一多模态建模中的关键作用。

图9 图像生成(DPG-Bench)与视频生成(VBench)性能随训练token增加的变化曲线

图10 不同训练token预算下的文本到图像与视频生成质量演化
5.1 跨任务数据协同效应
消融实验进一步揭示了不同任务数据混合对生成与理解能力的影响。引入理解导向数据在适当比例下能够带来清晰增益,理解数据为视觉生成提供了有用的语义基础。多任务生成数据通过联合训练增强了基础生成能力,且不同混合比例均优于纯生成基线。更具启示性的是,多任务生成数据的益处不仅限于生成任务:引入多任务生成数据还提升了视频理解性能。这表明多任务协同并非简单的能力累加,而是通过跨任务的相互强化,释放出统一模型的进一步潜力。
5.2 模态感知位置编码的有效性
对MaPE的消融实验表明,移除MaPE会在生成、编辑与理解任务上带来一致的性能下降。尤其在图像编辑任务中,MaPE的引入将GEdit得分从6.30提升至6.86,改善幅度最为显著。这是因为编辑任务需要模型联合推理视觉条件与生成目标,而MaPE通过减少异构视觉token组之间的位置歧义,实现了更好的跨任务上下文对齐与更稳定的视觉合成。

表6 模态感知旋转位置编码(MaPE)消融实验结果
六、总结与展望
Lance的提出为多模态统一建模提供了一条务实且高效的技术路径。其核心启示在于:通过精心设计的统一上下文建模与解耦能力路径,多任务协同训练能够有效推动理解与生成能力的相互增强,而非简单的任务堆砌。在仅3B激活参数与128张GPU训练预算的轻量级条件下,Lance实现了对图像与视频理解、生成、编辑任务的全面覆盖,并在多个基准测试中取得了开源统一模型中的领先表现。
从架构层面看,双专家混合架构与模态感知位置编码的引入,为异构视觉token在统一序列中的协调建模提供了有效方案;从训练层面看,四阶段渐进式训练与自适应数据调度策略,确保了模型在能力广度与任务精度之间取得平衡。消融实验进一步证实,跨任务数据协同并非零和博弈,理解数据能够为生成提供语义基础,而多任务生成数据也能反向提升理解性能,形成正向反馈循环。
展望未来,Lance所代表的技术路线仍有多个值得探索的方向。在训练后优化方面,更全面的视频感知奖励模型与基于奖励的优化方法,有望为时间连贯、视觉吸引且用户对齐的生成提供更强监督。在数据层面,引入专门的文本渲染数据可能进一步改善准确且布局一致的文本生成能力。在模型规模方面,扩大模型容量、专家容量与上下文长度,有望进一步提升整体能力与跨任务迁移效果。此外,将音频、语音、三维与具身感知信号纳入统一框架,将推动通用任意到任意多模态智能的演进;而集成流式感知与生成机制,则可拓展至实时交互与闭环多模态应用场景。
总体而言,Lance以其轻量级、高效能、广覆盖的特点,为统一多模态模型的研究提供了新的参考基准。其强调多任务协同而非单纯规模扩张的设计理念,或将在资源受限场景与多样化应用需求中展现出独特的实用价值。

图11 Lance文本到图像生成示例:多样化的风格与主题覆盖

图12 Lance任意到图像生成与图像理解示例:多轮对话与复杂视觉推理

图13 Lance文本到视频生成示例:物理感知与复杂动态场景

图14 Lance任意到视频生成与视频理解示例:多轮编辑与视频内容分析
论文地址:arXiv:2605.18678
具身智能&世界模型blog: https://jinxindeep.github.io/blog/blog2026.html