阿里巴巴开源多模态大模型-Qwen-VL系列论文精读(一)

阿里巴巴开源多模态大模型-Qwen-VL系列论文精读(一)

论文:Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

地址:https://github.com/QwenLM

总结:Qwen VL是一种旨在感知和理解文本和图像的大规模视觉语言模型(LVLM)。以Qwen LM为基础,通过精心设计的(i)visual receptor、(ii)input-output interface,、(iii)三阶段训练pipeline和(iv)multilingual multimodal cleanedcorpus赋予它视觉能力。除了传统的图像描述和问答之外,我们还通过对齐image-caption-box来实现Qwen VL的visual grounding和文本阅读能力。

2. Methodology

2.1 Model Architecture

Qwen-VL的网络架构由三部分组成,模型参数的详细信息显示在表1中:

大型语言模型Large Language Model:Qwen VL使用Qwen-7B作为其语言模型,并利用其预训练权重进行初始化;

视觉编码器Visual Encoder:视觉编码器采用ViT架构,使用Openclip的ViTbigG中的预训练权重进行初始化;在训练和推理期间,输入图像都会调整到特定的分辨率。视觉编码器通过将图像分割成步长为14的Patch来处理图像,生成一组图像特征。

位置感知视觉语言适配器Position-aware Vision-Language Adapter:为了缓解长图像特征序列引起的效率问题,Qwen VL引入了一种压缩图像特征的视觉语言适配器。该适配器包括一个随机初始化的单层交叉注意力模块。该模块使用一组可学习的embedding作为query,并使用来自视觉编码器的图像特征作为交叉注意力操作的key。该机制将视觉特征序列压缩到256的固定长度。此外,考虑到位置信息对细粒度图像理解的重要性,2D绝对位置编码被纳入交叉注意力机制的query-key对中,以减轻压缩过程中位置细节的潜在损失。长度为256的压缩图像特征序列随后被输入到大语言模型中。

2.2 Inputs and Outputs

Image Input: 图像通过视觉编码器和适配器进行处理,产生固定长度的图像特征序列。为了区分图像特征输入和文本特征输入,两个特殊标记(<img>和</img>)分别按照图像特征顺序出现在开头,表示图像内容的开始和结束。

Bounding Box Input and Output:为了增强模型对细粒度的视觉理解和定位能力,Qwen-VL训练数据格式涉及区域描述、问题和检测的形式。与涉及图像文本描述或问题的传统任务不同,此任务需要模型准确理解并以指定格式生成区域描述。对于任何给定的边界框,都会应用归一化过程(在[0,1000范围内),并将其转换为指定的字符串格式:"(Xtoplef t,Ytoplef t),(Xbottom right,Ybottom right)"。该字符串是基于文本的,不需要额外的位置符号。为了区分检测字符串和常规文本字符串,在边界框字符串的开头添加了两个特殊标记(<box>和</box>)。此外,为了将边界框与其相应的描述性单词或句子适当地关联起来,还引入了其他特殊标记(<ref>和</ref>),标记了边界框引用的内容。

3. Training

如图3所示,Qwen VL模型的训练过程包括三个阶段:预训练的两个阶段和指令微调训练的最后阶段。

3.1 Pre-training

在预训练的第一阶段,我们主要使用大规模、弱标注、网络抓取的图像文本对。我们的训练数据集由开源数据+内部数据组成。

在此阶段,我们冻结了大型语言模型,只优化了视觉编码器和VL适配器。输入图像的大小调整为224×224。训练目标是最小化文本标记的交叉熵。最大学习率为2e-4,训练过程bs大小为30720,整个预训练的第一阶段持续50000步,消耗了大约15亿个图像-文本样本。

3.2 Multi-task Pre-training

在多任务预训练的这一阶段,我们将引入高质量、细粒度的VL Annotation数据,这些数据具有较大的输入分辨率和交互式图像文本数据。

我们将视觉编码器的输入分辨率从224×224提高到448×448,减少了图像下采样造成的信息损失。此外,我们在附录E.3中消融window attention和global attention。最后,模型的所有组件均参与训练。

3.3 Supervised Fine-tuning

在此阶段,我们通过指令微调来微调Qwen VL预训练模型,以增强其指令跟随和对话能力,从而得到交互式Qwen VL-Chat模型。指令调优数据总计350k。在这个阶段,我们冻结了视觉编码器,并优化了语言模型和适配器模块。

4. Evaluation

在本节中,我们对一系列多模态任务进行了全面评估,以全面评估我们模型的视觉理解能力。在下文中,Qwen VL表示多任务训练后的模型,而Qwen VL-Chat表示SFT阶段后的模型。

CIDEr是一种通过衡量生成描述与参考描述之间相似性的指标。它基于共识的概念,即如果多个参考描述都包含某些特定的n-gram(n个连续单词的组合),那么这些n-gram在评估生成描述时应该具有更高的权重。CIDEr使用TF-IDF(Term Frequency-Inverse Document Frequency)权重来计算n-gram的权重,以反映它们在参考描述中的重要性和独特性。

相关推荐
CoderJia程序员甲15 小时前
GitHub 热榜项目 - 日榜(2026-01-30)
开源·大模型·llm·github·ai教程
人工智能培训15 小时前
基于Transformer的人工智能模型搭建与fine-tuning二
人工智能·深度学习·机器学习·大模型·transformer·企业数字化转型
司南OpenCompass18 小时前
当模型开始“记住”评测,如何用动态数据对抗污染?(上篇)
人工智能·大模型·多模态模型·大模型评测·司南评测
xixixi7777718 小时前
2026 年 1 月 30 日 AI + 通信 + 安全前沿信息集成
算法·安全·ai·大模型·安全威胁分析·信息与通信·通信
艾莉丝努力练剑1 天前
人工智能 Gemini 2.5 Pro:深度解析技术突破与实战应用
c++·人工智能·python·ai·大模型·编辑器·gemini
xixixi777771 天前
模型开源的核心目的与潜在隐患(附 AI 领域 / 具身智能专属视角)
人工智能·安全·ai·开源·大模型·具身智能·开源模型
玉梅小洋1 天前
Claude Code 从入门到精通(四):Hooks从原理到实践
ai·大模型·ai编程·claude·ai工具
韦先波2 天前
开源视觉大模型GLM-4.6V-Flash-WEB在内容审核中的应用探索
内容审核·多模态大模型·glm-4.6v-flash-web
博士僧小星2 天前
人工智能|大模型——应用——详解ClawdBot(Moltbot)
人工智能·大模型·agent·智能体·ai助理·clawdbot·moltbot
羊城迷鹿2 天前
从LoRA到OFT:Qwen2.5-VL在昇腾910B与4090上的多模态微调实践与踩坑记录
大模型·微调·多模态·qwen·llamafactory·oft