0. 引言:为什么 Qwen-VL 是多模态领域的里程碑?
在 2023 年之前,大语言模型(LLM)虽能出口成章,却身处"黑暗"。随着多模态大模型(LVLM)的爆发,如何让模型既能"看懂大意"又能"抠出细节"成了技术高地。
由阿里巴巴团队推出的 Qwen-VL ,不仅继承了 Qwen-7B 强大的逻辑大脑,更通过精妙的架构设计,实现了高精度 OCR(文本识别)和 Visual Grounding(物体定位)。对于从事舆情监测、虚假新闻检测的开发者来说,它不仅是一个模型,更是一套成熟的证据提取方案。
一、 摘要:通用多模态大模型的基石
这是一篇关于通用多模态大模型的架构和训练方法的论文。该系列模型专门为同时感知和理解文本与图像而设计。Qwen-VL 是一个大规模视觉语言模型(LVLM),论文提到了赋予模型视觉能力的四个关键要素:
-
视觉受体:基于 OpenCLIP 的 ViT,是感知图片的组件。
-
输入输出接口:定义了如何把图片信号喂给大模型。
-
三阶段训练流水线:实现了从粗到精的训练过程。
-
多语言多模态清晰语料库:强调了数据质量和中英双语的多语言特性。
二、 Qwen-VL 的核心亮点与区别
区别于早期的普通 CLIP 模型,Qwen-VL 的最大亮点在于:
-
定位能力:不仅能说图里有什么,还能给出物体的坐标框。
-
文本阅读:拥有强大的 OCR 能力,能读懂图片里的文字。
-
实现方式:通过对"图像-描述-框"三元组的对齐训练实现。
性能对比(Figure 1 & 2):
-
Figure 1:展示了 Qwen-VL 与其他几种主流多模态大模型在 12 个不同维度的视觉任务上的性能对比。
-
Figure 2:展示了模型生成的定性示例,包括多图输入、多轮对话、文本阅读、定位等。
三、 Introduction:痛点与兴起
主要讨论了三件事:大模型的局限性、视觉大模型的兴起、当前开源模型存在的痛点。
-
大模型的局限性:早期 LLM 只生活在"纯文本世界"里,无法处理图片、语音、视频。
-
现状(2023年):绝大多数模型只能看到图片的"大概"(如:认出是厨房),但看不清细节,缺乏物体定位和文字阅读(OCR)能力。
-
Qwen-VL 的诞生 :基于 Qwen-7B 开发,给读过万卷书的"超级大脑"接上感官。
这篇论文指出Qwen-VL 是基于Qwen-7B语言模型开发的,他不是从零开始的,而是给一个已经读过万卷书的'超级大脑'(70亿参数量级)接上感官。为了让纯文本的大脑看懂图,论文设计了两个关键组件:
-
语言对齐的视觉编码器:模型的眼睛,提取到的特征天生就和语言特征在同一个频道上。
-
位置感知适配器:告诉大脑信息出现在图片的哪一部分。
问题1:这里作者说Qwen-VL会有两个版本,一个是Qwen-VL(完成了上面第一、二阶段的产物),另一个是Qewn-VL-Chat(完成了第三阶段的产物),为什么会这样?
答:这涉及到AI领域一个很有意思的现象:'对齐税',当我们强迫一个模型学习像人一样说话时,它为了变得礼貌、圆滑,有时会牺牲一部分原始的精确度,举个例子:Qwen-VL 可能能 100% 准确地识别出一个极其微小的验证码;但 Qwen-VL-Chat 可能会因为太想跟你"聊天",反而忽略了那个极小的细节,或者在描述时加了很多修饰词导致信息失真。就是一个只懂逻辑不懂人情世故,另一个学会了善解人意。因此阿里巴巴或OpenAI 团队通常会发布两个版本:Base版给专业开发者和科研人员用和Chat版给应用层用。
问题2:为什么说原生的LLM只生活在纯文本世界里?
它并不是说人类没法让AI处理图片,而是LLM这个大脑本身如果不接外部组件,它连一个像素点都看不懂,之前的那些CLIP和早期的融合模型,实际上就是给LLM安装上了翻译器, 原生的 LLM(如 GPT-3 或 LLaMA) , 它的输入必须是 Token(词块)。如果你强行把图片的二进制字节流喂给它,它看到的只是杂乱无章的数字,完全无法理解空间结构(比如左边有个猫,右边有个狗)。CLIP 的角色:CLIP 并不是一个"大语言模型",它是一个"图文匹配器"。它能把图片变成向量,但它没有"大脑"去进行逻辑推理(比如它不能回答:图里的猫为什么在笑?
四、 深度解析:为什么分为 Base 版和 Chat 版?
Qwen-VL 分为两个版本:
-
Qwen-VL:完成了第一、二阶段训练的产物(Base 版)。
-
Qwen-VL-Chat:完成了第三阶段训练的产物。
核心原因:对齐税(Alignment Tax)
当我们强迫一个模型学习像人一样说话时,它为了变得礼貌、圆滑,有时会牺牲一部分原始的精确度。
-
Base 版:只懂逻辑,不懂人情世故。可能 100% 准确识别微小验证码。给专业开发者和科研人员用。
-
Chat 版:学会了善解人意。可能因为太想跟你"聊天"而忽略极小细节,导致信息失真。给应用层使用。
五、 模型能力大比拼:CLIP vs. BLIP vs. Qwen-VL
| 模型 | 位置感知的形式 | 你问它"猫在哪" | 对舆情分析的意义 |
|---|---|---|---|
| CLIP | 全局模糊感知 | 它会说:"图里有猫",但指不出位置。 | 只能发现图文大意不符。 |
| BLIP ( 引入了交叉注意力机制 , 不仅做图文匹配,还做图文对其判断 ) | 局部细节对齐 | 它能确认猫的具体动作和位置关系,但给不出坐标。 | 能发现"猫在树上"还是"猫在水里"这种细节矛盾。 |
| Qwen-VL | 显式坐标定位 | 它会吐出:[210, 450, 300, 550]。 | 实锤证据。能指出图里哪一处的文字或物体是造假的。 |
有个有趣的事情:CLIP 内部包含 ViT 作为视觉分支;BLIP 内部包含 ViT 作为视觉特征提取;Qwen-VL 内部包含 ViT-bigG 作为视觉受体。
但是这三种模型在执行具体任务的时候该怎么选择呢?
- 如果你只是想做一个初步筛选,剔除掉那些完全不相关的图文,CLIP 最快。
- 如果你想分析新闻里的复杂逻辑(比如:人物的动作是否符合描述),BLIP 或 BLIP-2 的理解力更强。
- 如果你需要证据提取(比如:读出背景里的模糊路牌,并指出其位置),Qwen-VL 是唯一的选择。
六、 Methodology:架构、加工与拼装
1. 模型架构
- 大语言模型:采用Qwen-7B作为基础组件,使用其预训练权重进行初始化,属于模型的'大脑'部分。
- 视觉编码器:Vit架构,图像在输入时会被调整为特定分辨率。
- 位置感知视觉语言适配器:为了解决长图像特征序列带来的效率问题,引入一个适配器来压缩特征,适配器包含一个单层交叉注意力模块,将视觉特征序列压缩到固定长度,同时在交叉注意力机制中加入了2D绝对位置编码。
2. 输入与输出处理(加工与拼装)
-
图像经过视觉编码器和适配器处理,产生固定长度的序列
-
为了区分图像特征和文本特征,模型在图像特征序列的开头和结尾分别添加了特殊的 Token:<img> 和 </img>
-
为了实现精细化的视觉理解和定位,模型引入了区域描述和检测任务,任何给定的边界框都会被归一化到 [0, 1000) 范围内,坐标被转换为特定字符串格式:"(Xtopleft, Ytopleft): (Xbottomright, Ybottomright)",使用 <box> 和 </box> 来标识检测字符串,使用 <ref> 和 </ref> 来关联边界框与其对应的描述文字。
模型架构与输入输出的关系(理解内部关系):这个过程拆解为"加工"和"拼装"两个步骤
- 加工:从像素到视觉单词,图片不是直接丢给大模型的,通过视觉编码器(ViT)把图片变成一堆密密麻麻的特征点,再通过适配器的交叉注意力机制将这些特征压缩成固定向量。
- 拼接:在大模型(Qwen-7B)看来,它收到的是一个长长的队列,里面既有你写的字,也有图片转化来的信号,格式为****[文本 Token] + <img> + [256个视觉 Token] + </img> + [后续文本 Token]**** ****,****论文提到,他们使用了特殊的 Token(<img> 和 </img>)来告诉大脑:"注意,接下来的 256 个信号不是字,而是图片内容。
七、 Training:三阶段流水线
-
第一阶段(预训练):
-
目标:基础图文语义对齐。
-
数据:14 亿对清洗后的图文对。
-
策略:冻结 LLM,仅优化视觉端,低分辨率输入。
-
-
第二阶段(多任务预训练):
-
目标:增强 OCR、视觉定位等复杂任务能力。
-
任务:图像描述、VQA、Grounding、OCR 等 7 项。
-
策略 :解锁 LLM 全参数优化 。此阶段得到的即为 Qwen-VL。
-
-
第三阶段(指令微调):
-
目标 :转化为交互机器人 Qwen-VL-Chat。
-
数据:35 万条指令微调数据。
-
策略 :冻结视觉编码器 ,仅优化语言模型和适配器。引入
<im_start>等 Token 支持多轮对话。
-
❓ 为什么第三阶段要冻结视觉编码器?
模型在第二阶段已练就极高难度的 OCR 和定位本领。第三阶段数据量小,若继续改动 ViT 参数,模型可能会为了"学习跟你客气打交道"而丢掉好不容易练就的本领(眼力),要知道此时重点是练"嘴"而非练"眼"。
八、 Evaluation:全能的视觉理解能力
-
4.1 图像描述与通用 VQA:Qwen-VL 在 Flickr30K 零样本任务及 VQAv2 等基准测试中大幅领先其他 LVLMs。
-
4.2 文本问答:测试读取并理解图像文本的能力。
-
4.3 定位能力:细粒度理解与精确定位。
-
4.4 少样本学习:评估上下文学习能力。
-
4.5 指令遵循:针对 Qwen-VL-Chat 在真实世界指令(如 TouchStone 基准)下的表现进行测试。
九、 总结与展望:舆情监测的下一站
Qwen-VL 通过对 "图像-描述-框" 三元组的深度对齐,打破了 LVLM "只能看大意"的魔咒。
在实际的舆情监测场景中,我们可以利用其强大的 OCR 能力 识别出图片背景里的特定标识(如东盟国家的国旗、特定的标语),再利用 定位能力 确认其位置,最后通过 LLM 大脑 进行逻辑冲突分析。