阿里巴巴开源多模态大模型-Qwen-VL系列论文精读(一)

阿里巴巴开源多模态大模型-Qwen-VL系列论文精读(一)

论文:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

地址:https://github.com/QwenLM

总结:Qwen VL是一种旨在感知和理解文本和图像的大规模视觉语言模型(LVLM)。以Qwen LM为基础,通过精心设计的(i)visual receptor、(ii)input-output interface,、(iii)三阶段训练pipeline和(iv)multilingual multimodal cleanedcorpus赋予它视觉能力。除了传统的图像描述和问答之外,我们还通过对齐image-caption-box来实现Qwen VL的visual grounding和文本阅读能力。

2. Methodology

2.1 Model Architecture

Qwen-VL的网络架构由三部分组成,模型参数的详细信息显示在表1中:

大型语言模型Large Language Model:Qwen VL使用Qwen-7B作为其语言模型,并利用其预训练权重进行初始化;

视觉编码器Visual Encoder:视觉编码器采用ViT架构,使用Openclip的ViTbigG中的预训练权重进行初始化;在训练和推理期间,输入图像都会调整到特定的分辨率。视觉编码器通过将图像分割成步长为14的Patch来处理图像,生成一组图像特征。

位置感知视觉语言适配器Position-aware Vision-Language Adapter:为了缓解长图像特征序列引起的效率问题,Qwen VL引入了一种压缩图像特征的视觉语言适配器。该适配器包括一个随机初始化的单层交叉注意力模块。该模块使用一组可学习的embedding作为query,并使用来自视觉编码器的图像特征作为交叉注意力操作的key。该机制将视觉特征序列压缩到256的固定长度。此外,考虑到位置信息对细粒度图像理解的重要性,2D绝对位置编码被纳入交叉注意力机制的query-key对中,以减轻压缩过程中位置细节的潜在损失。长度为256的压缩图像特征序列随后被输入到大语言模型中。

2.2 Inputs and Outputs

Image Input: 图像通过视觉编码器和适配器进行处理,产生固定长度的图像特征序列。为了区分图像特征输入和文本特征输入,两个特殊标记(<img>和</img>)分别按照图像特征顺序出现在开头,表示图像内容的开始和结束。

Bounding Box Input and Output:为了增强模型对细粒度的视觉理解和定位能力,Qwen-VL训练数据格式涉及区域描述、问题和检测的形式。与涉及图像文本描述或问题的传统任务不同,此任务需要模型准确理解并以指定格式生成区域描述。对于任何给定的边界框,都会应用归一化过程(在[0,1000范围内),并将其转换为指定的字符串格式:"(Xtoplef t,Ytoplef t),(Xbottom right,Ybottom right)"。该字符串是基于文本的,不需要额外的位置符号。为了区分检测字符串和常规文本字符串,在边界框字符串的开头添加了两个特殊标记(<box>和</box>)。此外,为了将边界框与其相应的描述性单词或句子适当地关联起来,还引入了其他特殊标记(<ref>和</ref>),标记了边界框引用的内容。

3. Training

如图3所示,Qwen VL模型的训练过程包括三个阶段:预训练的两个阶段和指令微调训练的最后阶段。

3.1 Pre-training

在预训练的第一阶段,我们主要使用大规模、弱标注、网络抓取的图像文本对。我们的训练数据集由开源数据+内部数据组成。

在此阶段,我们冻结了大型语言模型,只优化了视觉编码器和VL适配器。输入图像的大小调整为224×224。训练目标是最小化文本标记的交叉熵。最大学习率为2e-4,训练过程bs大小为30720,整个预训练的第一阶段持续50000步,消耗了大约15亿个图像-文本样本。

3.2 Multi-task Pre-training

在多任务预训练的这一阶段,我们将引入高质量、细粒度的VL Annotation数据,这些数据具有较大的输入分辨率和交互式图像文本数据。

我们将视觉编码器的输入分辨率从224×224提高到448×448,减少了图像下采样造成的信息损失。此外,我们在附录E.3中消融window attention和global attention。最后,模型的所有组件均参与训练。

3.3 Supervised Fine-tuning

在此阶段,我们通过指令微调来微调Qwen VL预训练模型,以增强其指令跟随和对话能力,从而得到交互式Qwen VL-Chat模型。指令调优数据总计350k。在这个阶段,我们冻结了视觉编码器,并优化了语言模型和适配器模块。

4. Evaluation

在本节中,我们对一系列多模态任务进行了全面评估,以全面评估我们模型的视觉理解能力。在下文中,Qwen VL表示多任务训练后的模型,而Qwen VL-Chat表示SFT阶段后的模型。

CIDEr是一种通过衡量生成描述与参考描述之间相似性的指标。它基于共识的概念,即如果多个参考描述都包含某些特定的n-gram(n个连续单词的组合),那么这些n-gram在评估生成描述时应该具有更高的权重。CIDEr使用TF-IDF(Term Frequency-Inverse Document Frequency)权重来计算n-gram的权重,以反映它们在参考描述中的重要性和独特性。

相关推荐
没事学AI10 小时前
移动端调用大模型详解
ios·大模型·安卓
陈敬雷-充电了么-CEO兼CTO18 小时前
OpenAI开源大模型 GPT-OSS 开放权重语言模型解析:技术特性、部署应用及产业影响
人工智能·gpt·ai·语言模型·自然语言处理·chatgpt·大模型
知了一笑3 天前
AI编程:代码多,效果好?
人工智能·大模型·kimi·千问·deepseek
乔公子搬砖3 天前
计算机视觉全景指南:从OpenCV预处理到YOLOv8实战,解锁多模态AI时代(第五章)
人工智能·opencv·计算机视觉·ai·语言模型·大模型
WSSWWWSSW3 天前
大语言模型提示工程与应用:ChatGPT提示工程技术指南
人工智能·python·语言模型·chatgpt·大模型
Tadas-Gao3 天前
MoVA:多模态视觉专家混合架构的创新设计与应用实践
大模型·llm·transformer
山顶夕景4 天前
【LLM】Openai之gpt-oss模型和GPT5模型
gpt·大模型·llm·openai
大千AI助手4 天前
RAGFoundry:面向检索增强生成的模块化增强框架
人工智能·大模型·llm·微调·rag·检索·ragfoundry
Ailerx6 天前
OpenAI隆重推出开源大模型:GPT-OSS
gpt·语言模型·开源·大模型·github·开源协议