论文阅读笔记 | Qwen-VL:一个视觉语言大模型,通晓理解、定位、文本阅读等多种能力

论文阅读笔记 | Qwen-VL:一个视觉语言大模型,通晓理解、定位、文本阅读等多种能力

通义千问-VL论文阅读笔记:arXiv 2023.10 | Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond


Abstract

今天我们要深入解析的是来自阿里巴巴团队的重量级工作------Qwen-VL (通义千问-VL)。这不仅仅是一个简单的视觉语言模型,而是一个旨在感知和理解文本与图像的多功能系列模型。

  • 🚩 背景 (Background): 随着大语言模型(LLM)的兴起,如何赋予其处理图像等多模态信息的能力,成为前沿热点。然而,现有的开源视觉语言模型(LVLM)在性能和功能上仍有较大局限。
  • 🚩 方法 (Method): 团队以Qwen-LM (通义千问语言模型)为基座,通过精心设计的视觉感受器 (visual receptor)输入输出接口 (input-output interface)三阶段训练流程 (3-stage training pipeline) 以及高质量的多语言多模态语料库,成功赋予了模型强大的视觉能力。
  • 能力 (Capabilities): Qwen-VL系列模型的能力远超传统的图像描述和问答。通过引入图像-描述-边界框 (image-caption-box) 数据对 ,模型学会了视觉定位 (grounding)文本阅读 (text-reading) 等细粒度技能。
  • 成果 (Results): 最终产出的 Qwen-VL (预训练模型)和 Qwen-VL-Chat (对话模型)在各种视觉核心评测基准上,无论是零样本(zero-shot)还是少样本(few-shot)设置,都取得了同等模型规模下的新纪录 (SOTA)。特别是在真实世界对话评测中,Qwen-VL-Chat展现了超越现有视觉语言聊天机器人的卓越表现。

1 INTRODUCTION

近年来,大语言模型(LLMs)以其强大的文本理解和生成能力惊艳了世界,但它们天生"生活"在纯文本世界里,无法处理图像、视频等其他模态,应用范围因此受限。

为了打破这一壁垒,大量的大型视觉语言模型 (LVLMs) 应运而生。然而,目前的开源LVLMs普遍存在一些问题:

  • 训练和优化不足,与顶尖的闭源模型差距明显。
  • 感知粒度粗糙 ,大多只能对图像进行一个笼统的理解,缺乏对图中特定物体进行定位(object grounding )或读取图中文字(text reading)等细粒度感知能力。

正是在这样的背景下,Qwen-VL系列应运而生,旨在解决上述痛点。它的核心特性可以总结为以下几点:

  • 卓越性能 (Leading Performance): 在包括图像描述、问答、定位等一系列传统基准和新兴的对话基准上,性能全面领先。
  • 多语言支持 (Multi-lingual): 基于在中英文图文数据上的充分训练,模型天然支持流畅的中英文对话和多语言指令
  • 多图输入 (Multi-image): 训练中采用了任意交错的图文数据,使得Qwen-VL-Chat能够处理和比较多张图片输入,并理解它们之间的上下文关系。
  • 细粒度视觉理解 (Fine-grained Visual Understanding): 凭借高分辨率输入和细粒度的训练数据,Qwen-VL在定位、文本阅读和细粒度对话方面表现出极强的竞争力。

2 METHODOLOGY (方法论)

Qwen-VL的整体设计简洁而高效,我们来逐一拆解其核心构成。

2.1 Model Architecture (模型架构)

Qwen-VL的架构由三大核心组件构成(如表1所示),总参数量为9.6B。

Vision Encoder VL Adapter LLM Total
1.9B 0.08B 7.7B 9.6B

表1: Qwen-VL 模型参数详情

  1. 大语言模型 (Large Language Model): 基座采用了性能强大的 Qwen-7B 语言模型,这是模型强大理解和推理能力的源泉。
  2. 视觉编码器 (Visual Encoder): 采用了 OpenCLIPViT-bigG 模型。它负责将输入图片转换成一系列特征向量。
  3. 🚩 关键创新 - 位置感知的视觉-语言适配器 (Position-aware Vision-Language Adapter): 这是连接视觉和语言世界的关键桥梁。
    • 动机: ViT处理高分辨率图像时会产生非常长的特征序列,直接送入LLM会带来巨大的计算负担。
    • 设计: 引入了一个单层的交叉注意力模块 (cross-attention) 。它使用一组可学习的查询向量 (learnable query embeddings) (数量固定为256个)来与ViT输出的图像特征进行交互,从而将长短不一的图像特征序列压缩成一个固定长度(256)的序列
    • 位置感知: 为了在压缩过程中不丢失对细粒度理解至关重要的位置信息,适配器在交叉注意力计算中巧妙地融入了2D绝对位置编码。这使得模型即便在压缩后也能感知到物体在图中的具体位置。
2.2 Inputs and Outputs (输入与输出)

为了支持丰富的多模态任务,Qwen-VL设计了一套特殊的输入输出格式。

  • 图像输入: 图像特征序列的首尾会添加特殊标记 <img></img>,以示区分。
  • 🚩 边界框输入输出 (Bounding Box I/O): 这是实现视觉定位能力的核心。
    • 格式化: 任何给定的边界框(bounding box)坐标都会被归一化到[0, 1000)范围内,并转换为一个固定的字符串格式:"(X_topleft,Y_topleft),(X_bottomright,Y_bottomright)"
    • 特殊标记:
      • <box></box> 用于包裹坐标字符串,告诉模型这是一个位置框。
      • <ref></ref> 用于包裹与该位置框对应的文本描述,从而将语言和空间位置精确关联

博主浅析: 这个VL Adapter的设计非常精妙,它用一个轻量级的模块(仅0.08B参数)解决了视觉特征与LLM对齐的核心难题,兼顾了效率性能。特别是位置编码的保留,是实现后续如"圈出图中的猫"这类细粒度任务的技术基石。


3 TRAINING (三阶段训练)

Qwen-VL的成功很大程度上归功于其精心设计的三阶段渐进式训练流程(如图3),每个阶段目标明确,层层递进。

图3: Qwen-VL 系列的训练流程

🚩 Stage 1: Pre-training (基础视觉-语言对齐)
  • 目标: 让模型建立基础的视觉理解能力,将视觉编码器与语言模型对齐。
  • 数据: 使用了海量的、从网络爬取的弱标签图文对(清洗后约14亿对)。
  • 训练细节:
    • 冻结LLM ,只优化视觉编码器(ViT)VL Adapter
    • 输入图像分辨率为较低的 224x224,以提高训练效率。
    • 目标是根据图片预测对应的文本描述。
🚩 Stage 2: Multi-task Pre-training (多任务能力注入)
  • 目标: 在基础对齐之上,为模型注入更高级、更细粒度的多模态能力。
  • 数据: 引入了多种高质量、细粒度的VL标注数据,涵盖7大任务,包括:VQA(视觉问答)、Grounding(定位)、OCR(光学字符识别)、纯文本自回归等(如表3所示)。
  • 训练细节:
    • 解冻LLM,整个模型(ViT, Adapter, LLM)都参与训练。
    • 输入图像分辨率提升至 448x448,以捕捉更多图像细节,支持细粒度任务。
🚩 Stage 3: Supervised Finetuning (SFT, 对话与指令对齐)
  • 目标: 将预训练好的模型转化为一个能听懂人类指令、进行流畅对话的聊天机器人。
  • 产出: Qwen-VL-Chat 模型。
  • 数据: 构建了专门的多模态指令微调数据集 ,不仅包含常规的对话和推理,还特别加入了涉及定位和多图理解 的对话数据。数据格式采用ChatML
  • 训练细节:
    • 冻结ViT ,只微调LLMAdapter,使其更好地适应指令和对话风格。

思考题: 为什么采用这样分阶段的训练策略?每个阶段冻结/解冻不同组件的考量是什么?
博主见解: 这种渐进式策略非常符合认知逻辑。第一步,先让模型学会看图说话的基础;第二步,教它完成更复杂的"看图考试",比如做选择题(VQA)、连线题(Grounding);第三步,训练它的沟通技巧,让它能以对话的形式灵活运用所学知识。分阶段冻结不同模块,既能在初期高效对齐视觉模块,又能保证在后续训练中不损害LLM强大的语言能力,是一种非常高效且稳健的训练范式。


4 EVALUATION (性能评测)

Qwen-VL在一系列广泛的评测基准上进行了全面评估,结果令人印象深刻。

Image Caption & General VQA (图像描述与通用视觉问答)
  • 图像描述: 在零样本Flickr30K评测上,Qwen-VL取得了85.8 的CIDEr得分,达到了SOTA 水平,甚至超越了参数量大得多的Flamingo-80B(如表4)。
  • 通用VQA: 在VQAv2、OKVQA、GQA等多个基准上,Qwen-VL的准确率也显著优于先前的通用模型。
Text-oriented VQA (面向文本的视觉问答)
  • ✅ 在需要理解图中文字的场景下,如TextVQA、DocVQA、ChartQA等,Qwen-VL的表现同样出色,大幅领先于同类模型(如表5)。这证明了其强大的OCR和文本理解能力。
Referring Expression Comprehension (指代表达式理解)
  • ⭐ 这是衡量模型细粒度定位能力 的关键任务。在RefCOCO、RefCOCO+、RefCOCOg等数据集上,Qwen-VL都取得了顶尖的成绩,证明它能精确地根据文本描述在图中找到对应的物体(如表6)。
Few-shot Learning (少样本学习)
  • ⭐ 如图4所示,在OKVQA、TextVQA等任务中,Qwen-VL仅通过上下文中的几个示例(few-shot),性能就能大幅提升,甚至媲美参数量是其近10倍的80B模型 ,展现了极强的在情境中学习 (in-context learning) 的能力。

图4: Qwen-VL 与其他模型的少样本学习性能对比

Instruction Following (真实世界指令跟随)
  • Qwen-VL-Chat 在模拟真实用户行为的TouchStone、SEED-Bench、MME 等评测中表现出了压倒性优势(如表7)。
  • 特别是在TouchStone 评测中,无论中文还是英文,Qwen-VL-Chat都远超其他LVLM,尤其中文能力优势巨大,这得益于其高质量的中文多模态数据。

个人见解: Qwen-VL的评测部分做得非常扎实、全面。它没有满足于在几个传统任务上刷分,而是覆盖了从基础感知到细粒度理解,再到真实世界对话的方方面面。这充分证明了Qwen-VL是一个真正的"多边形战士",其能力的广度和深度都达到了新的高度。


视觉语言学习领域发展迅速。早期模型如OFA、CoCa 等,致力于用统一的架构解决多任务。随着LLM的崛起,Flamingo、BLIP-2、LLaVA等模型开始探索将强大的预训练LLM与视觉模块相结合,取得了巨大成功。

而近期,Kosmos-2、Shikra 等工作开始关注更细粒度的能力,如视觉定位。Qwen-VL正是在这个趋势上的集大成者,它成功地将图像描述、视觉问答、OCR、文档理解和视觉定位等多种能力无缝地集成到一个统一的模型中,并取得了卓越的性能。


6 CONCLUSION AND FUTURE WORK (结论与未来展望)

Conclusion

论文发布了Qwen-VL系列模型,这是一套开源、高性能、多功能的大型多模ल态模型。

  • 核心贡献: 在各项基准测试中超越了同类模型,并支持多语言对话、多图交错对话、中英文定位、以及细粒度识别等高级功能。
Future Work

团队规划了几个未来的发展方向:

  • 集成更多模态: 如语音(speech)和视频(video)。
  • 继续扩大规模: 扩大模型尺寸、训练数据和输入分辨率,以处理更复杂的多模态关系。
  • 增强生成能力: 拓展模型在多模态生成方面的能力,如生成高保真图像和流畅的语音。

博主点评与思考

Qwen-VL无疑是大型视觉语言模型领域的一个里程碑式的工作。

  • 技术突破: 其成功的核心在于简洁高效的架构设计 (特别是位置感知的VL Adapter)和系统化的三阶段训练流程。这个流程确保了模型能力由浅入深、由粗到细的平稳构建。
  • 潜在局限: 虽然论文展示了强大的性能,但所有LVLM仍面临一些共同挑战,如:
    1. 多模态幻觉 (Multimodal Hallucination): 如何确保模型生成的内容既符合图像事实,又具有创造性,避免"一本正经地胡说八道"?
    2. 实时性: 当前模型的推理速度对于许多实时应用(如机器人、自动驾驶)来说仍然是一个挑战。
    3. 动态视频理解: 从静态图像理解扩展到复杂的动态视频理解,仍然有很长的路要走。
  • 行业影响: Qwen-VL的开源极大地推动了社区的发展,为研究者和开发者提供了一个能力极其全面且强大的基座模型,有望催生出更多富有创意的多模态应用。它向我们展示了通往更通用、更强大的视觉智能助手的清晰路径。
相关推荐
饕餮争锋1 小时前
设计模式笔记_创建型_建造者模式
笔记·设计模式·建造者模式
萝卜青今天也要开心1 小时前
2025年上半年软件设计师考后分享
笔记·学习
吃货界的硬件攻城狮2 小时前
【STM32 学习笔记】SPI通信协议
笔记·stm32·学习
蓝染yy2 小时前
Apache
笔记
Jamence3 小时前
多模态大语言模型arxiv论文略读(155)
论文阅读·人工智能·计算机视觉·语言模型·论文笔记
lxiaoj1113 小时前
Python文件操作笔记
笔记·python
半导体守望者4 小时前
ADVANTEST R4131 SPECTRUM ANALYZER 光谱分析仪
经验分享·笔记·功能测试·自动化·制造
啊我不会诶5 小时前
倍增法和ST算法 个人学习笔记&代码
笔记·学习·算法
逼子格5 小时前
振荡电路Multisim电路仿真实验汇总——硬件工程师笔记
笔记·嵌入式硬件·硬件工程·硬件工程师·硬件工程师真题·multisim电路仿真·震荡电流
Jamence5 小时前
多模态大语言模型arxiv论文略读(156)
论文阅读·人工智能·语言模型·自然语言处理·论文笔记