Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

ABSTRACT

现代大规模视觉-语言模型(LVLMs)采用了相同的视觉词汇-CLIP,可以涵盖大多数常见的视觉任务。然而,对于一些需要密集和细粒度视觉感知的特殊视觉任务,例如文档级OCR或图表理解,尤其是在非英语环境中,CLIP风格的词汇可能在分词视觉知识方面效率较低,甚至遇到词汇表外问题。因此,我们提出了一种名为Vary的有效方法,用于扩大LVLMs的视觉词汇。Vary的过程自然地分为两个步骤:生成和整合新的视觉词汇。在第一阶段,我们设计了一个词汇网络以及一个小型的仅解码器的transformer,通过自回归方式生成所需的词汇。接下来,我们通过将新的词汇与原始词汇(CLIP)合并,扩大了原始的视觉词汇,使LVLMs能够快速获得新特征。与流行的BLIP-2、MiniGPT4和LLaVA相比,Vary在保持其原有功能的同时,拥有更出色的细粒度感知和理解能力。具体而言,Vary在新的文档解析功能(OCR或标记转换)上表现出色,在DocVQA中实现了78.2%的ANLS,以及在MMVet中实现了36.2%的成绩。我们的代码将在主页上公开发布。

论文地址:论文
即将开源:主页
开源代码:代码

该论文旨在解决大规模视觉-语言模型(LVLMs)中视觉词汇表规模的限制问题。在传统的视觉-语言模型中,通常使用一个固定大小的视觉词汇表来表示图像的视觉信息。然而,这种固定大小的词汇表可能无法有效地覆盖复杂和多样化的视觉世界。

为了扩大视觉词汇表的规模,论文提出了一种名为Vary的方法。Vary方法利用自回归生成技术,通过一个小型解码器(称为"vocabulary network"),从已有的有限词汇表中扩展出更多的词汇。该方法可以根据上下文和语言模型的预测进行表征,并在生成过程中利用了注意力机制。

Vary方法的关键思想是通过生成来扩大词汇表,而非直接增加预训练参数的数量。这使得扩展视觉词汇表的计算和存储成本大大降低,并且可以通过少量参数快速生成大规模的词汇。

论文通过在多个视觉-语言任务上的实验验证了Vary方法的有效性。实验结果表明,使用扩展后的视觉词汇表可以显著提升模型在图像分类、图像生成和视觉问答等任务上的性能。

相关推荐
我没胡说八道39 分钟前
高校论文AI检测优化工具对比研究与实测分析(2026)
人工智能·深度学习·机器学习·计算机视觉·aigc·论文
秦亚伟39 分钟前
AI浪潮重塑融资租赁行业新格局
人工智能
love530love40 分钟前
LiveTalking 数字人项目 Windows 部署完全指南(EPGF 架构)
人工智能·windows·python·架构·livetalking·epgf
元启数宇41 分钟前
喷淋AI布点实战:8小时人工布点→20分钟自动出图
人工智能
哈哈,柳暗花明41 分钟前
人工智能专业术语详解(H)
人工智能·专业术语
圣殿骑士-Khtangc42 分钟前
AI 编程工具 2026 实战横评:Cursor 3 vs Claude Code vs Copilot,开发者选型完全指南
人工智能·copilot
云器科技1 小时前
云器Lakehouse 2026年5月版本发布:拥抱 AI Agent,重塑数据智能开发新范式
人工智能
小鹰-上海鹰谷-电子实验记录本1 小时前
第六届党建引领科创生态座谈会 | 邓光辉博士出席分享AI赋能创新药科研新范式
人工智能·ai·电子实验记录本·药企合规
极客老王说Agent1 小时前
2026电信IDC机房巡检深度报告:人工巡检频次和深度够吗?实在Agent重塑智慧运维新范式
人工智能·ai·chatgpt
海兰1 小时前
【水浒传:第二篇】AI江湖 —项目详细设计指南(一)
jvm·人工智能·游戏