DualToken如何让模型理解自己画出来的东西?

论文简述

图像理解着重深度的语义,图像生成着重细节的纹理,像素,两者先天不相容。DualToken通过ViT天生自带的分层来生成两套token,实现了一个模型既能生成图像又能理解图像。

正文

依旧非常长的论文题目,依旧底部给arxiv链接

话说主包一直很喜欢看毕导,漫士沉思录,小Lin说这种风格的科普视频

这种科普风格都有一种共同点,就是不咋叠公式叠细节,但是及其凝练,让没有专业背景的人也能看懂

其实理解了这个也就能理解今天所说的ViT层级特性,也就是DualToken的核心了

首先,我们要明白一点:目前的LLM看不懂图片,你直接给LLM塞一张图片,它只能看到一堆莫名其妙的RGB矩阵,如果我们要做文生图或者图生文,应该怎么做呢?

虽然LLM看不懂图片,但是我们可以通过某种方式,把一张图片从图像翻译成token,就能让LLM"理解"图片了

这个图像-token翻译官有一个名字叫Visual Tokenizer(以下简称偷啃来者)

不同的偷啃来者,处理图片的方法也是不同的,主要有两个流派:

  1. 微操派:微操派担大梁的是VQ-VAE。把一张图一刀一刀切成很多小patch,生成的就是一串离散码本token (就是会弄一本字典,记不同的token对怎样的小patch),它最擅长把一个图片尽可能的还原清楚。最擅长的是纹理,颜色,边缘,清晰度等等特别细的细节

  2. 宏观派:宏观派主要是CLIP/SigLIP。拿着图片和文字训练,它最擅长的就是比相似度,看图文匹不匹配这种工作。

看到这里,读者应该差不多懂了,微操派像无聊的课本,事无巨细,适合拿来做图像生成;宏观派像科普视频,适合拿来做真正的图像理解。

那怎么才能让模型又会图像理解又会生成图像呢?

在此前主要有两种办法,首先是直接正面硬刚 ,一张网络训练两种目标(VILA-U,MUSE-VL,QLIP等),这种也是很拉的,人本来就是水火不相容,强行同时训练,最后基本上是两头不讨好;还有一种方法是东拼西凑,干脆直接上两个模型,然后再拿管道接起来,这导致结构复杂不说,LLM还要学两套视觉语言,特征空间不一致,速度也是很慢

讲到这里,我们先放一放,讲一下图像识别的方法的演进

在以前的时候,我们做图像识别都是用的CNN网络,比如ResNet,VGG这些,什么视觉人物都是靠的CNN,图片分类,目标检测,图片分割等。。。

在以前,CV就是CNN

但是2017年,注意力机制魔童降世,很快就把NLP领域搅成了浑水

2020年,有注意力特别集中的神人发现,注意力似乎也可以拿来做图像分类呀?

于是伴随着一股强劲的BGM,ViT降生了,很快就在图像分类领域和多模态领域把CNN绞杀了

ViT的工作流程是,首先把一整张图片切成很多小Patch(比如16 * 16像素),然后把它们映射成向量,最后再送入Transformer,慢慢拼凑出整体信息

为什么我们讲着LLM的两种tokenizer,突然跳到了ViT呢?

原来论文的灵珠作者注意到了一件事情:ViT的比较浅的层数,特别接近微操派的分token,而比较深的层数,就比较接近宏观派的分token了

这就像,你第一次打开一本三角函数速查表,你看到了从1倍到3倍到无穷多倍的值,你不断发动你的注意力并且一遍又一遍苦读,后面你发现了诱导公式,最后你终于发现了:奇变偶不变,符号看象限

作者是通过观察1-26层的ViT,不同的聚类发现这一现象的,低层数偏好按色彩和纹理等分类,比如金色的猫和金色的狗放一类,高层数偏好按语义分类,比如猫一类,狗一类

恭喜!这就是论文提出的核心的解决方案!现在我们只要训好一张ViT就能同时输出两种我们要的Token

论文的核心设计就是准备两个码本,一个是像素码本,来自前四分之一层特征,用来做生成,然后是语义码本,来自深层,用来做图文版对齐

同时两个任务要在不同层训练,互不干扰。浅层就弄重建损失 ,深层就做语义损失,互相独立量化,不共用和干扰,最后加VQ两户损失,保证不漂移

最后把两套token送给大模型,完美

结语

本论文rFID是0.25,ImageNet零样本分类达到82%,3B小模型优于7B模型

主包也是在想,会不会以后只要一套token就行了?说不定大佬们可以试试,论文记得给我也挂个名字

原文

Song W, Wang Y, Song Z, et al. DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies[C]//Proceedings of the International Conference on Learning Representations (ICLR). 2026.

arxiv号:2503.14324