阿里巴巴开源多模态大模型-Qwen-VL系列论文精读(一)

阿里巴巴开源多模态大模型-Qwen-VL系列论文精读(一)

论文:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

地址:https://github.com/QwenLM

总结:Qwen VL是一种旨在感知和理解文本和图像的大规模视觉语言模型(LVLM)。以Qwen LM为基础,通过精心设计的(i)visual receptor、(ii)input-output interface,、(iii)三阶段训练pipeline和(iv)multilingual multimodal cleanedcorpus赋予它视觉能力。除了传统的图像描述和问答之外,我们还通过对齐image-caption-box来实现Qwen VL的visual grounding和文本阅读能力。

2. Methodology

2.1 Model Architecture

Qwen-VL的网络架构由三部分组成,模型参数的详细信息显示在表1中:

大型语言模型Large Language Model:Qwen VL使用Qwen-7B作为其语言模型,并利用其预训练权重进行初始化;

视觉编码器Visual Encoder:视觉编码器采用ViT架构,使用Openclip的ViTbigG中的预训练权重进行初始化;在训练和推理期间,输入图像都会调整到特定的分辨率。视觉编码器通过将图像分割成步长为14的Patch来处理图像,生成一组图像特征。

位置感知视觉语言适配器Position-aware Vision-Language Adapter:为了缓解长图像特征序列引起的效率问题,Qwen VL引入了一种压缩图像特征的视觉语言适配器。该适配器包括一个随机初始化的单层交叉注意力模块。该模块使用一组可学习的embedding作为query,并使用来自视觉编码器的图像特征作为交叉注意力操作的key。该机制将视觉特征序列压缩到256的固定长度。此外,考虑到位置信息对细粒度图像理解的重要性,2D绝对位置编码被纳入交叉注意力机制的query-key对中,以减轻压缩过程中位置细节的潜在损失。长度为256的压缩图像特征序列随后被输入到大语言模型中。

2.2 Inputs and Outputs

Image Input: 图像通过视觉编码器和适配器进行处理,产生固定长度的图像特征序列。为了区分图像特征输入和文本特征输入,两个特殊标记(<img>和</img>)分别按照图像特征顺序出现在开头,表示图像内容的开始和结束。

Bounding Box Input and Output:为了增强模型对细粒度的视觉理解和定位能力,Qwen-VL训练数据格式涉及区域描述、问题和检测的形式。与涉及图像文本描述或问题的传统任务不同,此任务需要模型准确理解并以指定格式生成区域描述。对于任何给定的边界框,都会应用归一化过程(在[0,1000范围内),并将其转换为指定的字符串格式:"(Xtoplef t,Ytoplef t),(Xbottom right,Ybottom right)"。该字符串是基于文本的,不需要额外的位置符号。为了区分检测字符串和常规文本字符串,在边界框字符串的开头添加了两个特殊标记(<box>和</box>)。此外,为了将边界框与其相应的描述性单词或句子适当地关联起来,还引入了其他特殊标记(<ref>和</ref>),标记了边界框引用的内容。

3. Training

如图3所示,Qwen VL模型的训练过程包括三个阶段:预训练的两个阶段和指令微调训练的最后阶段。

3.1 Pre-training

在预训练的第一阶段,我们主要使用大规模、弱标注、网络抓取的图像文本对。我们的训练数据集由开源数据+内部数据组成。

在此阶段,我们冻结了大型语言模型,只优化了视觉编码器和VL适配器。输入图像的大小调整为224×224。训练目标是最小化文本标记的交叉熵。最大学习率为2e-4,训练过程bs大小为30720,整个预训练的第一阶段持续50000步,消耗了大约15亿个图像-文本样本。

3.2 Multi-task Pre-training

在多任务预训练的这一阶段,我们将引入高质量、细粒度的VL Annotation数据,这些数据具有较大的输入分辨率和交互式图像文本数据。

我们将视觉编码器的输入分辨率从224×224提高到448×448,减少了图像下采样造成的信息损失。此外,我们在附录E.3中消融window attention和global attention。最后,模型的所有组件均参与训练。

3.3 Supervised Fine-tuning

在此阶段,我们通过指令微调来微调Qwen VL预训练模型,以增强其指令跟随和对话能力,从而得到交互式Qwen VL-Chat模型。指令调优数据总计350k。在这个阶段,我们冻结了视觉编码器,并优化了语言模型和适配器模块。

4. Evaluation

在本节中,我们对一系列多模态任务进行了全面评估,以全面评估我们模型的视觉理解能力。在下文中,Qwen VL表示多任务训练后的模型,而Qwen VL-Chat表示SFT阶段后的模型。

CIDEr是一种通过衡量生成描述与参考描述之间相似性的指标。它基于共识的概念,即如果多个参考描述都包含某些特定的n-gram(n个连续单词的组合),那么这些n-gram在评估生成描述时应该具有更高的权重。CIDEr使用TF-IDF(Term Frequency-Inverse Document Frequency)权重来计算n-gram的权重,以反映它们在参考描述中的重要性和独特性。

相关推荐
Harrytsz6 分钟前
基于 AutoDL 平台搭建 vLLM Qwen 大模型推理服务
qwen·autodl·webui·vllm
_OP_CHEN40 分钟前
【Coze智能体开发】(二)从 0 到 1 精通 Coze 智能体开发:基础到实战全攻略,新手也能快速上手!
人工智能·大模型·大语言模型·模型优化·扣子平台·智能体开发·智能体调试
Haooog44 分钟前
Spring AI 与 LangChain4j 对比
人工智能·大模型·springai·langchain4j
MonkeyKing_sunyuhua16 小时前
大模型常见的专用名词
大模型
大模型真好玩16 小时前
大模型训练全流程实战指南(一)——为什么要学习大模型训练?
人工智能·pytorch·python·大模型·deep learning
悟乙己17 小时前
使用TimeGPT进行时间序列预测案例解析
机器学习·大模型·llm·时间序列·预测
数据饕餮17 小时前
提示词工程实训营09- 4.2 风格模仿与调整——从“千篇一律“到“风格百变“的AI魔法
大模型·提示词工程
桃子叔叔17 小时前
基于SWIFT框架的预训练微调和推理实战指南之完整实战项目
大模型·swift
数据饕餮18 小时前
提示词工程实训营08- 写作助手:文章、报告、创意文案——从“写作困难户“到“高产作家的蜕变秘籍
人工智能·大模型·提示词工程
CoderJia程序员甲18 小时前
GitHub 热榜项目 - 日榜(2026-1-7)
人工智能·ai·大模型·github·ai教程