多模态-10 Qwen-VL

这篇文章开始介绍千问系列的VL多模态模型,包括Qwen-VL、Qwen2-VL、Qwen2.5-VL、Qwen3-VL

Transformer介绍可以看:深度学习基础-5 注意力机制和Transformer

多模态基础知识点可以看:多模态-1 基础理论

Qwen-VL原论文:《Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond》

Qwen-VL采取的也是类似BLIP2的适配器方法(BLIP2详细介绍可以看:多模态-5 BLIP2),在图像编码器和语言大模型(LLM)之间插入一个适配器,对齐图像特征、文本特征的语义,但是Qwen-VL在自己的训练数据集上分阶段的重新训练了图像编码器和语言大模型,而BLIP2只训练适配器Q-Former。

以往的VL模型一般都是面向英文的,Qwen-VL支持中英双语,中文友好,而且除了支持图像理解、问答任务外,还支持Grounding任务(多模态模型的Grounding任务介绍可以看:多模态-7 Grounding DINO)、OCR文本提取,在多个公开评测数据集上,达到了当时最优的开源模型效果。

一 模型结构

模型结构如下:

整体由以下三个组件构成:

1)图像编码器:Vision Encoder,论文中使用的是ViT结构,ViT的详细介绍可以看:计算机视觉Transformer-1 基础结构

2)视觉-语言特征适配器:VL Adapter,cross attention层,负责从图像编码器输出结果中提取和文本最相关的视觉特征,将视觉特征转换为语言大模型可以理解的特征(语义对齐)

3)语言大模型:LLM,论文中使用的是Qwen 7B

而且ViT输出的图像特征编码序列长度过大,会增加整体模型的计算负担

VL Adapter由交叉注意力层(cross attention)+位置编码构成

为了统一处理图像编码器输出的图像特征编码表示和文本特征编码表示,Qwen-VL在图像特征编码表示的前后添加了img/img标记,用于标记一个图像特征编码表示的开始和结束,img类似于BERT中的cls标记符号,但是二者存在一些区别

img 是一个"名义上可学习、实际上被忽略"的占位符向量,不参与训练,随机初始化成什么值都没有关系,它的主要作用就是标记图像特征编码表示的起止,可以自然的将图像编码特征引入到以往语言模型输入处理的流程中。

类似img标签,为了让Qwen-VL具备Grounding的能力,需要将物体的bounding box也引入进来,Qwen-VL利用box/box符号标记一个bounding box的起止,并且对物体的坐标值进行了转换,将坐标值转换到0,1000范围内

需要注意box标记是一个随模型训练可学习的向量

为了让Qwen-VL能建立起bounding box和对应图像区域的关联,引入了ref/ref符号表示,简单理解就是告诉模型bounding box区域对应的内容是什么

一个完整结合imgboxref三者的训练数据如下:

ref标记在 Qwen-VL 中是一个纯粹的、结构性的文本标记。它与 box标记成对出现,共同构成一种"富文本"格式,用于在训练数据和模型输出中,显式、无歧义地将一段文本描述与其在图像中的空间位置(bounding box)绑定到一起。在训练时它教会模型"当看到<ref>X</ref><box>Y</box>时,X描述的就是Y这个框里的东西",在推理时它允许模型以同样结构化的格式回答问题,从而下游应用可根据这些标记符号进行精确的解析和可视化。

二 训练

Qwen-VL的训练整体分为三个阶段:

1)Pre-training:预训练,学习通用的图像-文本语义对齐,冻结 LLM,只训练 ViT 和 VL Adapter

2)Multi-task Pre-training:多任务预训练,学习细粒度的视觉理解(OCR、定位),解冻 LLM,使用高分辨率输入,7个VL任务联合训练

3)Supervised Fine-tuning:监督微调,学习指令遵循和对话能力,使用对话数据,冻结 ViT,只训练 LLM 和 Adapter

2.1 Pre-training

2.2 Multi-task Pre-training

2.3 Supervised Fine-tuning

2.4 训练细节

三 数据集构建

3.1 数据处理

3.1.1 图文数据处理

3.1.2 VQA、Grounding数据处理

3.1.3 OCR数据处理

ocr数据合成:

PDF处理:

HTML处理:

3.2 数据格式

四 实验结果

相关推荐
HyperAI超神经14 小时前
深度估计准确率冲上0.9,Meta提出VLM³,论证视觉模型天生会学3D,以Qwen3-VL-4B为基础实现多任务的统一建模
人工智能·3d·大模型·多模态·空间推理·3d感知·3d理解
余俊晖2 天前
多模态文档解析后处理开源模型:MinerU-Popo方案思路提升RAG性能
人工智能·ocr·多模态
汤姆yu5 天前
原生一体化多模态大模型技术研究
ai·大模型·多模态·智能体
余俊晖7 天前
推理驱动的生成式通用多模态嵌入框架-UME-R1
人工智能·自然语言处理·多模态
袋鼠云数栈7 天前
数栈 V7.0 多模态数据智能平台:打造 AI-Ready 的企业数据底座
大数据·数据结构·数据库·人工智能·数据治理·多模态
SimpleLearingAI8 天前
PyTorch & Numpy 实现线性回归详解
人工智能·算法·多模态大模型
程序大视界10 天前
AI多模态大模型技术全景(2026):从“拼接“到“原生统一“,一文读懂底层架构与主流方案
人工智能·架构·多模态
这是谁的博客?14 天前
多模态大模型技术深度解析:从 CLIP 到 LLaVA 的视觉语言融合原理
ai·transformer·多模态·clip·视觉语言模型·vit·llava
EDPJ14 天前
(2025|ICML|普林斯顿 & NYU,MLLM,思维链/ CoT)思维链会降低需要思考才能完成的任务的完成效率,这在人类身上表现得尤为明显
计算机视觉·cot·多模态大模型·思维链·mllm