【深度学习 | 论文精读】Qwen-VL:从“纯文本”到“火眼金睛”,通向多模态大模型的进阶之路

0. 引言:为什么 Qwen-VL 是多模态领域的里程碑?

在 2023 年之前,大语言模型(LLM)虽能出口成章,却身处"黑暗"。随着多模态大模型(LVLM)的爆发,如何让模型既能"看懂大意"又能"抠出细节"成了技术高地。

由阿里巴巴团队推出的 Qwen-VL ,不仅继承了 Qwen-7B 强大的逻辑大脑,更通过精妙的架构设计,实现了高精度 OCR(文本识别)Visual Grounding(物体定位)。对于从事舆情监测、虚假新闻检测的开发者来说,它不仅是一个模型,更是一套成熟的证据提取方案。

一、 摘要:通用多模态大模型的基石

这是一篇关于通用多模态大模型的架构和训练方法的论文。该系列模型专门为同时感知和理解文本与图像而设计。Qwen-VL 是一个大规模视觉语言模型(LVLM),论文提到了赋予模型视觉能力的四个关键要素:

  1. 视觉受体:基于 OpenCLIP 的 ViT,是感知图片的组件。

  2. 输入输出接口:定义了如何把图片信号喂给大模型。

  3. 三阶段训练流水线:实现了从粗到精的训练过程。

  4. 多语言多模态清晰语料库:强调了数据质量和中英双语的多语言特性。


二、 Qwen-VL 的核心亮点与区别

区别于早期的普通 CLIP 模型,Qwen-VL 的最大亮点在于:

  • 定位能力:不仅能说图里有什么,还能给出物体的坐标框。

  • 文本阅读:拥有强大的 OCR 能力,能读懂图片里的文字。

  • 实现方式:通过对"图像-描述-框"三元组的对齐训练实现。

性能对比(Figure 1 & 2)

  • Figure 1:展示了 Qwen-VL 与其他几种主流多模态大模型在 12 个不同维度的视觉任务上的性能对比。

  • Figure 2:展示了模型生成的定性示例,包括多图输入、多轮对话、文本阅读、定位等。


三、 Introduction:痛点与兴起

主要讨论了三件事:大模型的局限性、视觉大模型的兴起、当前开源模型存在的痛点。

  • 大模型的局限性:早期 LLM 只生活在"纯文本世界"里,无法处理图片、语音、视频。

  • 现状(2023年):绝大多数模型只能看到图片的"大概"(如:认出是厨房),但看不清细节,缺乏物体定位和文字阅读(OCR)能力。

  • Qwen-VL 的诞生 :基于 Qwen-7B 开发,给读过万卷书的"超级大脑"接上感官。

这篇论文指出Qwen-VL 是基于Qwen-7B语言模型开发的,他不是从零开始的,而是给一个已经读过万卷书的'超级大脑'(70亿参数量级)接上感官。为了让纯文本的大脑看懂图,论文设计了两个关键组件:

  1. 语言对齐的视觉编码器:模型的眼睛,提取到的特征天生就和语言特征在同一个频道上。

  2. 位置感知适配器:告诉大脑信息出现在图片的哪一部分。

问题1:这里作者说Qwen-VL会有两个版本,一个是Qwen-VL(完成了上面第一、二阶段的产物),另一个是Qewn-VL-Chat(完成了第三阶段的产物),为什么会这样?

答:这涉及到AI领域一个很有意思的现象:'对齐税',当我们强迫一个模型学习像人一样说话时,它为了变得礼貌、圆滑,有时会牺牲一部分原始的精确度,举个例子:Qwen-VL 可能能 100% 准确地识别出一个极其微小的验证码;但 Qwen-VL-Chat 可能会因为太想跟你"聊天",反而忽略了那个极小的细节,或者在描述时加了很多修饰词导致信息失真。就是一个只懂逻辑不懂人情世故,另一个学会了善解人意。因此阿里巴巴或OpenAI 团队通常会发布两个版本:Base版给专业开发者和科研人员用和Chat版给应用层用。

问题2:为什么说原生的LLM只生活在纯文本世界里?

它并不是说人类没法让AI处理图片,而是LLM这个大脑本身如果不接外部组件,它连一个像素点都看不懂,之前的那些CLIP和早期的融合模型,实际上就是给LLM安装上了翻译器, 原生的 LLM(如 GPT-3 或 LLaMA) 它的输入必须是 Token(词块)。如果你强行把图片的二进制字节流喂给它,它看到的只是杂乱无章的数字,完全无法理解空间结构(比如左边有个猫,右边有个狗)。CLIP 的角色:CLIP 并不是一个"大语言模型",它是一个"图文匹配器"。它能把图片变成向量,但它没有"大脑"去进行逻辑推理(比如它不能回答:图里的猫为什么在笑?


四、 深度解析:为什么分为 Base 版和 Chat 版?

Qwen-VL 分为两个版本:

  1. Qwen-VL:完成了第一、二阶段训练的产物(Base 版)。

  2. Qwen-VL-Chat:完成了第三阶段训练的产物。

核心原因:对齐税(Alignment Tax)

当我们强迫一个模型学习像人一样说话时,它为了变得礼貌、圆滑,有时会牺牲一部分原始的精确度。

  • Base 版:只懂逻辑,不懂人情世故。可能 100% 准确识别微小验证码。给专业开发者和科研人员用。

  • Chat 版:学会了善解人意。可能因为太想跟你"聊天"而忽略极小细节,导致信息失真。给应用层使用。


五、 模型能力大比拼:CLIP vs. BLIP vs. Qwen-VL

模型 位置感知的形式 你问它"猫在哪" 对舆情分析的意义
CLIP 全局模糊感知 它会说:"图里有猫",但指不出位置。 只能发现图文大意不符。
BLIP 引入了交叉注意力机制 不仅做图文匹配,还做图文对其判断 局部细节对齐 它能确认猫的具体动作和位置关系,但给不出坐标。 能发现"猫在树上"还是"猫在水里"这种细节矛盾。
Qwen-VL 显式坐标定位 它会吐出:[210, 450, 300, 550]。 实锤证据。能指出图里哪一处的文字或物体是造假的。

有个有趣的事情:CLIP 内部包含 ViT 作为视觉分支;BLIP 内部包含 ViT 作为视觉特征提取;Qwen-VL 内部包含 ViT-bigG 作为视觉受体。

但是这三种模型在执行具体任务的时候该怎么选择呢?

  • 如果你只是想做一个初步筛选,剔除掉那些完全不相关的图文,CLIP 最快。
  • 如果你想分析新闻里的复杂逻辑(比如:人物的动作是否符合描述),BLIP 或 BLIP-2 的理解力更强。
  • 如果你需要证据提取(比如:读出背景里的模糊路牌,并指出其位置),Qwen-VL 是唯一的选择。

六、 Methodology:架构、加工与拼装

1. 模型架构

  • 大语言模型:采用Qwen-7B作为基础组件,使用其预训练权重进行初始化,属于模型的'大脑'部分。
  • 视觉编码器:Vit架构,图像在输入时会被调整为特定分辨率。
  • 位置感知视觉语言适配器:为了解决长图像特征序列带来的效率问题,引入一个适配器来压缩特征,适配器包含一个单层交叉注意力模块,将视觉特征序列压缩到固定长度,同时在交叉注意力机制中加入了2D绝对位置编码。

2. 输入与输出处理(加工与拼装)

  • 图像经过视觉编码器和适配器处理,产生固定长度的序列

  • 为了区分图像特征和文本特征,模型在图像特征序列的开头和结尾分别添加了特殊的 Token:<img> 和 </img>

  • 为了实现精细化的视觉理解和定位,模型引入了区域描述和检测任务,任何给定的边界框都会被归一化到 [0, 1000) 范围内,坐标被转换为特定字符串格式:"(Xtopleft, Ytopleft): (Xbottomright, Ybottomright)",使用 <box> 和 </box> 来标识检测字符串,使用 <ref> 和 </ref> 来关联边界框与其对应的描述文字。

模型架构与输入输出的关系(理解内部关系):这个过程拆解为"加工"和"拼装"两个步骤

  1. 加工:从像素到视觉单词,图片不是直接丢给大模型的,通过视觉编码器(ViT)把图片变成一堆密密麻麻的特征点,再通过适配器的交叉注意力机制将这些特征压缩成固定向量。
  2. 拼接:在大模型(Qwen-7B)看来,它收到的是一个长长的队列,里面既有你写的字,也有图片转化来的信号,格式为****[文本 Token] + <img> + [256个视觉 Token] + </img> + [后续文本 Token]**** ****,****论文提到,他们使用了特殊的 Token(<img> 和 </img>)来告诉大脑:"注意,接下来的 256 个信号不是字,而是图片内容。

七、 Training:三阶段流水线

  1. 第一阶段(预训练)

    • 目标:基础图文语义对齐。

    • 数据:14 亿对清洗后的图文对。

    • 策略:冻结 LLM,仅优化视觉端,低分辨率输入。

  2. 第二阶段(多任务预训练)

    • 目标:增强 OCR、视觉定位等复杂任务能力。

    • 任务:图像描述、VQA、Grounding、OCR 等 7 项。

    • 策略解锁 LLM 全参数优化 。此阶段得到的即为 Qwen-VL

  3. 第三阶段(指令微调)

    • 目标 :转化为交互机器人 Qwen-VL-Chat

    • 数据:35 万条指令微调数据。

    • 策略冻结视觉编码器 ,仅优化语言模型和适配器。引入 <im_start> 等 Token 支持多轮对话。

❓ 为什么第三阶段要冻结视觉编码器?

模型在第二阶段已练就极高难度的 OCR 和定位本领。第三阶段数据量小,若继续改动 ViT 参数,模型可能会为了"学习跟你客气打交道"而丢掉好不容易练就的本领(眼力),要知道此时重点是练"嘴"而非练"眼"。


八、 Evaluation:全能的视觉理解能力

  • 4.1 图像描述与通用 VQA:Qwen-VL 在 Flickr30K 零样本任务及 VQAv2 等基准测试中大幅领先其他 LVLMs。

  • 4.2 文本问答:测试读取并理解图像文本的能力。

  • 4.3 定位能力:细粒度理解与精确定位。

  • 4.4 少样本学习:评估上下文学习能力。

  • 4.5 指令遵循:针对 Qwen-VL-Chat 在真实世界指令(如 TouchStone 基准)下的表现进行测试。


九、 总结与展望:舆情监测的下一站

Qwen-VL 通过对 "图像-描述-框" 三元组的深度对齐,打破了 LVLM "只能看大意"的魔咒。

在实际的舆情监测场景中,我们可以利用其强大的 OCR 能力 识别出图片背景里的特定标识(如东盟国家的国旗、特定的标语),再利用 定位能力 确认其位置,最后通过 LLM 大脑 进行逻辑冲突分析。

相关推荐
workflower2 小时前
深度学习是通用型人工智能的基础
人工智能·深度学习·设计模式·软件工程·软件构建·制造
啦啦啦!2 小时前
ChatGPT和Gemini的接入和封装
人工智能·ios·chatgpt
Daydream.V2 小时前
基于Opencv和Dlib的人脸换脸实现
人工智能·opencv·计算机视觉·仿射变换·换脸·视频换脸·图片换脸
没有退路那我就不要散步2 小时前
升级NPU驱动和固件,对上层的AI推理服务有多大影响?
人工智能
CSDN官方博客2 小时前
【奖励到账】CSDN AI 社区镜像创作激励活动第十二批奖励补发发放!
人工智能
电子科技圈2 小时前
赋能高端音频功能促进多样化设备创新——XMOS USB Audio平台实现四大功能升级
人工智能·mcu·音视频·智能家居·边缘计算·语音识别·智能硬件
nunca_te_rindas2 小时前
deepseek专家模式--20260408
人工智能
AI成长日志2 小时前
【AI原生开发实战】2.1 Prompt工程基础:编写高质量提示词
人工智能·prompt·ai-native
ar01232 小时前
AR远程协助平台:重塑工业与服务协作的新模式
人工智能·ar