Vision Banana:图像生成器也是通用视觉学习器?

论文:Image Generators are Generalist Vision Learners

项目页:vision-banana.github.io arXiv:2604.20329

1. 一句话总结

Vision Banana 的核心观点很直接,也很有冲击力:强大的图像生成模型不只是会"画图",它在生成预训练中已经学到了可迁移的视觉理解能力;只要用少量视觉任务数据做 instruction tuning,并把各种视觉任务统一成"生成可解码 RGB 图像",就能在分割、深度、表面法线等任务上逼近甚至超过专门模型。

这篇论文之所以火,是因为它把计算机视觉里长期分开的两条线重新接上了:一条是图像生成,另一条是视觉理解。过去我们通常认为生成模型负责合成图片,SAM、Depth Anything、Lotus 等专门模型负责理解图片;而 Vision Banana 试图证明,未来可能会出现类似 LLM 的视觉基础模型范式:用生成式预训练获得通用能力,再通过指令对齐把能力释放到不同任务上。

2. 背景:为什么这件事重要

近年来,视觉生成模型已经能生成高保真、强语义控制、复杂结构一致的图像和视频。直觉上,如果一个模型能画出"一个人在雨夜街头撑伞、地面反光、远处车灯虚化"的场景,它似乎应该理解物体、空间、遮挡、材质和语义关系。但在主流视觉理解任务中,领先方法仍然多来自判别式或任务专用路线,例如:

  • 语义/实例/开放词汇分割:SAM 系列、DINO-X、OWLv2 等。

  • 深度估计:Depth Anything、Depth Pro、MoGe、UniK3D 等。

  • 表面法线估计:Lotus、Marigold、StableNormal 等。

此前也有工作观察到扩散模型或图像生成器内部存在语义、深度、法线等隐式表征,但这些能力往往难以稳定输出到标准评测格式,或者需要改模型结构、加任务头、做全量微调,从而牺牲生成模型原本的通用性。

Vision Banana 的问题意识是:能不能像 LLM 一样,把图像生成模型当作"视觉基座模型",再通过轻量 instruction tuning 让它按任务要求输出可评测结果?

3. 方法:把视觉理解任务改写成图像生成

Vision Banana 基于 Google 的图像生成模型 Nano Banana Pro。论文没有提出一个复杂的新网络结构,而是采用一种很"LLM 化"的范式:

  1. 保留原始图像生成训练数据混合。

  2. 以很低比例混入视觉任务数据。

  3. 用自然语言提示模型生成特定格式的 RGB 图像。

  4. 再把生成的 RGB 图像解析回标准视觉任务输出。

换句话说,它不是让模型输出类别 ID、mask 张量或深度数组,而是让模型生成一张"看起来像任务可视化结果"的图片。例如:

  • 语义分割:生成每个类别对应固定颜色的分割图。

  • 实例分割:生成多色 mask,再通过聚类解析不同实例。

  • 指代表达分割:根据自然语言描述,把目标区域渲染成指定颜色。

  • 深度估计:生成一张伪彩色深度图,再通过可逆颜色映射还原为米制深度。

  • 表面法线:把法线向量的 x、y、z 分量直接映射到 RGB 通道。

这个设计的关键不是"可视化"本身,而是 可逆和可评测。生成出来的 RGB 图必须能被稳定解码回标准 benchmark 所需的 mask、depth map 或 normal map,否则就只能停留在 qualitative demo,不能证明模型真的达到 SOTA 水平。

4. 技术细节:RGB 作为统一输出接口

论文最有意思的地方,是把不同视觉任务都塞进 RGB 图像这个统一接口里。

4.1 分割任务

对于语义分割和指代表达分割,模型被提示生成指定颜色的 mask。比如某个类别或目标区域用纯黄色,背景用黑色。评测时只需要在 RGB 空间中找到接近目标颜色的像素,就能解析出 mask。

对于实例分割,问题更复杂,因为同一类别可能有多个实例。论文使用多阶段聚类算法解析生成图,包括背景识别、颜色相似分组、噪声剔除、边界伪影处理、空间约束合并等步骤。也就是说,实例分割并不是"生成完就直接得分",中间还有较重的后处理。

4.2 深度估计

深度估计要求输出真实物理距离,范围是 [0, ∞),而 RGB 只有有限颜色空间。论文设计了一个从米制深度到 RGB 的可逆映射:

  • 先用 Barron power transform 对深度做非线性压缩,让近处深度更精细。

  • 再沿 RGB 立方体边缘构造伪彩色映射。

  • 推理时把生成的 RGB 图投影回颜色路径,再反变换得到米制深度。

论文强调,Vision Banana 在深度预测时不使用相机内参或外参,依靠图像生成预训练获得的世界知识和物体尺度先验来恢复绝对尺度。

4.3 表面法线

表面法线天然适合 RGB 表示。论文采用相机坐标系下的法线向量 (x, y, z),把三个分量映射到 RGB。这样模型生成的 normal map 可以直接解码成每个像素的单位法线向量。

5. 实验结果概览

论文覆盖了 2D 理解、3D 理解和生成能力保留三个方向。

5.1 2D 视觉理解

在 2D 任务上,Vision Banana 主要评测语义分割、实例分割和指代表达分割。

任务 Benchmark Vision Banana 对比对象
语义分割 Cityscapes val mIoU 69.9 SAM 3 为 65.2
实例分割 SA-Co/Gold cgF1 47.5 OWLv2 为 24.6
指代表达分割 RefCOCOg UMD val cIoU 73.8 SAM 3 Agent 为 73.4
推理型指代表达分割 ReasonSeg val gIoU 79.3 SAM 3 Agent 为 77.0

需要注意两个细节:

  • 在 SA-Co/Gold 实例分割中,Vision Banana 搭配了 Gemini 3.1 Flash-Lite 做目标是否存在的判断,然后再让 Vision Banana 生成 mask。

  • 在 ReasonSeg 中,复杂推理查询先由 Gemini 2.5 Pro 转写成更适合分割的描述,再交给 Vision Banana。

因此,它的成绩展示了生成式视觉基座的强能力,但部分 pipeline 不是纯 Vision Banana 单模型完成。

5.2 3D 视觉理解

在单目深度估计中,论文报告 Vision Banana 在六个公共数据集上的平均 δ1 为 0.882。与 Depth Anything V3 对齐的四个数据集上,Vision Banana 平均 δ1 为 0.929,高于 Depth Anything V3 的 0.918。论文还强调其深度训练数据来自仿真合成数据,没有使用评测数据集训练集,也不依赖相机参数。

在表面法线估计中,Vision Banana 在 NYUv2、DIODE indoor、ScanNet 三个室内数据集平均上取得最低 mean/median angular error,并在 Virtual KITTI 这类室外数据上保持竞争力。总体平均 mean angle error 为 18.928,优于论文对比中的 Lotus-2 19.642。

5.3 生成能力是否被破坏

论文很重视"不要把生成模型训成一个只会做 CV 任务的模型"。因此它用人类偏好评估比较 Vision Banana 和 Nano Banana Pro:

生成任务 Benchmark Vision Banana 相对 Nano Banana Pro
文生图 GenAI-Bench 53.5% win rate
图像编辑 ImgEdit 47.8% win rate

这个结果说明轻量 instruction tuning 没有明显破坏原本的图像生成能力。换句话说,Vision Banana 不是一个"拿生成器改造成的分割器",而更像一个仍然会生成、同时会做视觉理解的通用模型。

6. 主要贡献

第一,论文提出并实证了一个强命题:图像生成预训练可以扮演类似语言模型预训练的角色,成为视觉理解的通用预训练方式。 这比"生成模型里有一些可探测的语义特征"更进一步,因为它在多个标准视觉 benchmark 上给出了可量化结果。

第二,论文把 RGB 图像作为视觉任务的统一输出空间。这个接口很朴素,但很有扩展潜力:只要任务输出能编码成图像,就可以被纳入同一个生成模型和同一套自然语言提示框架。

第三,Vision Banana 在多任务上使用共享权重,只靠 prompt 切换任务。这与传统 CV 里每个任务定制模型结构、损失函数、输出头的路线形成鲜明对比。

第四,论文展示了生成能力与理解能力可以共存。它通过混入原生成数据进行低比例视觉任务 instruction tuning,避免灾难性遗忘。

7. 值得警惕的局限

这篇论文很亮眼,但不能只看标题级结论。

首先,底座 Nano Banana Pro 是闭源/内部模型,训练数据、模型规模、训练细节、成本都不透明。这让外部研究者很难复现,也很难判断成功来自范式本身、模型规模、私有数据,还是三者叠加。

其次,部分结果依赖额外 MLLM。比如实例分割中的存在性判断、ReasonSeg 中的复杂语言推理,都借助 Gemini 系列模型完成。这不削弱 Vision Banana 的视觉生成式输出能力,但在比较"单模型通用视觉能力"时需要分清 pipeline 边界。

第三,RGB 统一接口优雅但也有代价。生成图像再解码会引入颜色漂移、边界伪影、解析阈值、聚类后处理等问题。对于工业部署或高精度几何任务,这种输出路径可能不如直接回归张量稳定。

第四,推理成本可能很高。论文也承认,调用大型图像生成器做分割或深度估计,比运行轻量专门模型昂贵得多。Vision Banana 更像是范式验证和未来方向,而不是马上替代所有专门 CV 模型的工程方案。

第五,评测任务仍集中在单目图像的基础 2D/3D 理解。视频、多视角、时序一致性、交互式视觉推理、开放世界持续学习等方向还没有充分验证。

第六,它并没有在所有维度上打败所有专门模型。比如 Cityscapes 上非零样本迁移的 SegMan-L mIoU 仍高很多;SA-Co/Gold 中使用 SA-Co 训练过的 SAM 3 + Llama 方案也更强。论文真正强调的是 zero-shot transfer 和通用性,而不是每个封闭任务上的绝对最强。

8. 与现有视觉范式的关系

Vision Banana 可以被看作三类趋势的交汇:

  1. 生成式视觉预训练:从"生成图片"走向"学习世界模型/视觉表征"。

  2. 统一多任务接口:类似 Unified-IO、Pix2Seq、InstructCV 等路线,把任务输出格式统一化。

  3. LLM 式 instruction tuning:不再为每个任务大改结构,而是通过提示和少量对齐数据释放能力。

它最像 LLM 时代的一个视觉类比:GPT 的预训练目标是预测文本,但 instruction tuning 后可以回答问题、写代码、做推理;Vision Banana 的预训练目标是生成图像,但 instruction tuning 后可以生成分割图、深度图、法线图,并通过解码参与标准评测。

9. 影响与启发

如果这条路线继续成立,计算机视觉模型的形态可能会发生几件变化。

首先,视觉任务的工程边界会变模糊。分割、深度、法线、编辑、合成不再是完全不同模型,而可能是同一生成式视觉基座的不同输出模式。

其次,数据标注需求可能改变。专门模型通常需要大量任务标注,而 Vision Banana 暗示:大规模生成预训练已经学到很多结构性知识,后续只需要少量任务数据教会模型"按格式回答"。

第三,多模态模型可能更自然地融合视觉生成、视觉理解和语言推理。比如"找出图中最可能被遮挡的危险物体,并生成对应分割图"这类任务,传统 pipeline 需要多个模块,而生成式统一接口可能更顺滑。

第四,视觉 benchmark 的设计也可能被影响。未来评测不只看模型是否能输出张量,还要看它是否能根据自然语言指令切换输出格式、解释输出、处理歧义和多模态上下文。

10. 我的评价

Vision Banana 是一篇"范式感"很强的论文。它的技术手段并不花哨:低比例混合视觉任务数据、输出 RGB 可视化、再解析回标准答案。但它抓住了一个大问题:生成模型到底只是会拟合图片分布,还是在学习可迁移的视觉世界模型?

从实验看,它给出了相当有力的证据。尤其是单目 metric depth 不用相机参数、只用合成深度数据,却能在真实数据集上达到强结果,这一点很值得关注。它说明强生成模型内部可能已经形成了丰富的尺度、空间和物体先验。

不过,这篇论文也更像一个高势能信号,而不是最终答案。由于底座模型和数据不开放,外部社区还需要在开源生成模型上复现类似结论,才能判断"图像生成器是通用视觉学习器"到底是普遍规律,还是顶级闭源模型规模下才出现的现象。

总体而言,Vision Banana 值得重点跟进。它不会立刻让 SAM、Depth Anything、Lotus 这类专门模型失去价值,但它很可能推动大家重新思考视觉基础模型的主训练目标:未来的通用视觉模型,也许不再是"先理解再生成",而是通过生成学会理解

11. 后续可关注问题

  • 开源图像生成模型能否复现 Vision Banana 的多任务 SOTA 现象?

  • RGB 输出接口能否扩展到光流、姿态、3D 重建、视频跟踪、多视角一致性等更复杂任务?

  • 是否可以减少后处理,让生成结果更稳定、可校准、可置信度估计?

  • 如何降低图像生成器执行视觉理解任务的推理成本?

  • 生成式视觉基座与 LLM/MLLM 的职责边界应该如何划分?

  • benchmark 是否需要区分"单模型能力"和"LLM + 生成式视觉模型 pipeline 能力"?