Tuna-2:直接像素embedding打败视觉编码器

这篇名为 《Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation》 的论文由 Meta AI、香港大学和滑铁卢大学的研究人员合作发表。

该论文提出了一项极具颠覆性的研究成果:在构建原生的统一多模态模型(UMM)时,完全抛弃了传统的预训练视觉编码器(如 CLIP、SigLIP)和变分自编码器(VAE),证明了直接基于像素嵌入(Pixel Embeddings)进行端到端训练,能够在多模态理解和生成任务上达到甚至超越现有依赖复杂组件的SOTA(State-of-the-Art)模型。


首先看TUNA,TUNA 所使用的理解和生成的 Unified Representation,是用 VAE 接一个 Representation Encoder (文中使用 SigLIP 2) 得到的。作者借助 Representation Encoder 从 VAE latents 里面抽语义特征。然后,把这个特征当作 Visual Representation,参与统一模型的训练。

TUNA 架构。把一个 VAE 串接一个 Representation Encoder,抽取视觉特征。TUNA 是一个非常典型的理解生成统一模型,自回归方式生成文本,Flow Matching 方式生成图像或者视频。

TUNA 是一个非常典型的理解生成统一模型,自回归方式生成文本,Flow Matching 方式生成图像或者视频。Attention Mask 的设计也跟统一模型的惯例保持一致:

  • language token 之间:一直 causal mode。
  • visual token 之间:一直 bidirectional mode。
  • visual token 与 language token:生成时:text 看不到 visual,(noised) visual 可以看到 text;理解时:text 看得到 visual,visual 看不到 text。

TUNA 的 Attention Mask 设计。* 代表 visual token 加噪

TUNA架构能训起来需要3个阶段:

  • 训练 Representation Encoder 和 Flow Matching head: 使用的训练目标是 image captioning 和 T2I 生成。
  • 训练整个模型: 使用的训练目标依然是 image captioning 和 T2I 生成。在最后的 training steps 里面,引入 image instruction-following, image editing, 和 video-captioning。
  • SFT: 引入 image editing, image/video instruction-following, 以及高质量 image/video 生成。

TUNA 使用 VAE 和 Representation Encoder 建模视觉表征。TUNA-R 去掉了 VAE,只保留了 Representation Encoder。TUNA-2 把 Representation Encoder 替换为了 Patch Embedding 层。

TUNA-2 架构与前代的对比。作者逐步把 TUNA 的 vision encoder 进行简化,一步步变成 TUNA-2。中间过程 TUNA-R 只保留了 representation encoder,去掉了 VAE

1. 研究背景与核心痛点

当前的范式:

目前,希望同时实现"看图说话"(视觉理解)和"文生图"(视觉生成)的统一多模态模型(UMM),通常依赖于模块化设计。它们高度依赖预训练的视觉组件:

  1. 表征编码器(Representation Encoder, 如 CLIP/SigLIP): 用于提取图像的语义特征以进行理解。
  2. 变分自编码器(VAE): 用于将图像压缩到隐空间(Latent Space),以降低扩散模型/流匹配的生成难度(如 Stable Diffusion 的做法)。

存在的痛点:

  • 模态不对齐与次优解: 理解和生成使用不同的视觉表征,导致任务之间存在"错位",无法实现从原始像素出发的完全端到端优化。
  • 信息丢失: VAE 和表征编码器在压缩图像时,会丢失大量细粒度的底层视觉细节,这对于需要精确感知的任务(如OCR、极小物体识别)非常不利。

论文的疑问与目标:

我们能否彻底摆脱预训练的视觉编码器,直接从原始像素的端到端学习中构建强大的统一多模态模型?


2. 模型架构演进:从 Tuna 到 Tuna-2

论文通过"做减法"的方式,展示了模型架构的演进:

  • Tuna(前作): 依赖 VAE 进行隐空间生成,并使用表征编码器进行理解。
  • Tuna-R(过渡版本):
    • 去除了 VAE,改在像素空间(Pixel-space)直接进行流匹配(Flow Matching)生成图像。
    • 保留了表征编码器(SigLIP 2)来提取视觉特征喂给大语言模型(LLM)。
  • Tuna-2(最终版本 - 极简架构):
    • 彻底去除了表征编码器和 VAE。
    • 使用极其简单的 Patchify Layer(线性块嵌入层) 将原始图像像素直接切块并转化为 Token。
    • 这些视觉 Token 和文本 Token 一起输入到一个单一的 Transformer 解码器(基于 Qwen2.5-7B)中进行联合处理。
    • 输出端:语言头(Language Head)负责自回归生成文本;流匹配头(Flow Matching Head)负责直接在像素空间生成干净的图像。

3. 核心技术与训练策略

为了让这种"没有预训练视觉先验"的极简架构生效,论文引入了几个关键技术:

A. 像素空间流匹配(Pixel-space Flow Matching)

去掉了 VAE,意味着不能再做隐空间扩散。Tuna-2 采用了直接在原始像素上预测干净图像(x-prediction)并回归速度场(v-loss)的方法。

B. 基于掩码的特征学习(Masking-based Feature Learning)

这是训练成功的关键。 像素空间维度极高且充满冗余信息,模型很容易学到"捷径"而非真正的语义。为此,作者引入了掩码机制(类似 MAE):

  • 在生成任务中: 随机遮挡部分噪声图像,要求模型预测完整的干净图像。这迫使模型学习上下文关系,而不是单纯的局部去噪。
  • 在理解任务中: 让模型看着被遮挡的图像来回答问题(生成文本)。这作为一种正则化手段,迫使模型进行更深度的多模态推理,学出更鲁棒的像素级表征。

在理解和生成中对图像做随机 Masking

C. 训练流水线(完全端到端)
  1. 阶段一(全模型预训练): 使用图文对(Captioning)和文生图(T2I)数据,联合训练 LLM 和流匹配头,建立视觉和语言的初始对齐。(注:最佳的数据采样比例是 生成7 : 理解3)。
  2. 阶段二(监督微调 SFT): 使用高质量的指令跟随、图像编辑和高保真生成数据进行微调,提升各项具体能力。

4. 实验结果与核心发现

论文在大量基准测试上对比了 Tuna-2、Tuna-R 和其他原生 UMMs,得出了几个令人振奋的结论:

A. 视觉理解:像素级嵌入完胜,尤其在细粒度任务上
  • Tuna-2 在 7B 参数规模的统一模型中取得了 SOTA 的成绩。
  • 重大发现: 尽管 Tuna-2 没有任何预训练视觉编码器,但它的理解能力超越了保留编码器的 Tuna-R
  • 尤其是在需要精细视觉感知的"像素级基准测试"(如 V* 寻找微小物体、CountBench 计数、OCRBench 文本识别)上,Tuna-2 优势明显。这证明抛弃 VAE/编码器避免了底层信息的丢失。
B. 视觉生成:与隐空间模型平分秋色
  • 即使没有 VAE,Tuna-2 依然能生成高质量、高保真度的图像,且在指令图像编辑(ImgEdit)上表现出色。
  • 相比于 Tuna(使用 VAE),Tuna-2 生成的图像具有更好的多样性
C. 训练动态学(Training Dynamics):先验 vs. 规模

论文进行了一个非常深刻的对比分析:

  • 训练初期: 带有预训练编码器的 Tuna-R 学得更快,因为 SigLIP 赋予了它丰富的先验语义知识。
  • 随着数据规模扩大: 无编码器的 Tuna-2 实现了反超。这表明:单体、无编码器的原生架构,在经过大规模多模态预训练后,能够发展出比拼接模块更强的多模态理解能力。上限更高。
D. 注意力机制更精准

可视化分析显示,由于是在像素空间端到端训练,Tuna-2 的注意力图(Attention Map)非常精准。它不容易被文本提示中的误导性词汇或图像中显眼的干扰物欺骗,展现出极强的鲁棒性。


5. 总结与意义

《Tuna-2》的里程碑意义在于:

它打破了多模态大模型领域的思维定势(即"必须用 CLIP 提特征,必须用 VAE 降维")。它证明了:

  1. 预训练视觉编码器对于多模态建模并非必需。
  2. 端到端的像素空间学习(Pixel-space learning)提供了一条可扩展的道路。 只要有足够的训练和巧妙的策略(如 Masking),大语言模型可以直接从原始像素的 Patch 中自己学到卓越的理解和生成能力。

这为未来开发更简洁、更原生的多模态通用大模型(Native UMMs)指明了新的发展方向,极简 Transformer 架构完全具备统治多模态领域的潜力。

相关推荐
孟林洁12 小时前
Java转AI应用开发速成(2)——核心概念扫盲Token、Prompt、Embedding 是什么
人工智能·ai·prompt·embedding
这是谁的博客?12 小时前
Embedding 模型深度解析:文本嵌入技术原理与 MTEB 评估体系
ai·embedding·文本处理·mteb·bge·向量表示
夜雪闻竹2 天前
从零实现 Embedding 服务:文本转向量
人工智能·算法·embedding
养肥胖虎2 天前
完整学习LLM(五):Embedding是什么,为什么文本能变成向量
llm·embedding·rag
夜雪闻竹4 天前
nomic-embed-text vs text-embedding-3-small 横评
笔记·embedding
一勺菠萝丶7 天前
常见 AI 模型类型整理:大语言模型、聊天模型、推理模型、Embedding 模型到底有什么区别?
人工智能·语言模型·embedding
U盘失踪了7 天前
Embedding 模型 和 大语言模型(LLM)的区别
语言模型·embedding
龙侠九重天8 天前
Embedding 模型深度使用——语义搜索与聚类
人工智能·深度学习·数据挖掘·大模型·llm·embedding·聚类