论文简读:Qwen3-VL Technical Report | Qwen3VL技术报告

demo: https://chat.qwen.ai

模型: https://huggingface.co/Qwenhttps://modelscope.cn/organization/qwen

github: https://github.com/QwenLM/Qwen3-VL

论文地址:https://arxiv.org/pdf/2511.21631

Qwen3-VL 是Qwen系列中能力最强的视觉-语言模型 ,在多模态基准测试中表现优异。该模型原生支持高达256K个标记的交错上下文 ,无缝整合文本、图像和视频。模型家族包含两类:稠密模型 (2B/4B/8B/32B)和专家混合模型(30B-A3B/235B-A22B),以适应不同延迟-质量权衡。

Qwen3-VL交付三大核心支柱:

(i) 显著更强的纯文本理解能力 ,在某些场景超越同类纯文本骨干模型;

(ii) 强大的长上下文理解能力 ,原生支持256K标记窗口,适用于文本和交错多模态输入,能忠实保留、检索及跨长文档/视频交叉引用;

(iii) 先进的多模态推理能力 ,在单图像、多图像和视频任务上,于MMLU、Math-Vista和MathVision等基准测试中展现出领先的性能

架构层面引入三项关键升级:

(i) 增强的交错-MRoPE ,提升图像和视频的时空建模;

(ii) DeepStack集成 ,利用多级ViT特征强化视觉-语言对齐;

(iii) 基于文本的时间对齐,从T-RoPE演进到显式文本时间戳对齐,实现更精确时间定位。

为平衡纯文本和多模态学习目标,应用平方根重加权 ,在不损害文本能力下提升多模态性能。预训练扩展至256K标记上下文长度,后训练分为非思考思考 两种变体,并分配额外计算资源以提升性能。在相同标记预算和延迟约束下,Qwen3-VL在稠密模型和专家混合(MoE)架构中均取得优异的性能

1 Introduction

视觉-语言模型(VLMs)已从基础视觉感知发展到高级多模态推理(如图像、视频理解)。关键要求是不削弱底层大语言模型(LLM)的语言能力,多模态模型需在语言基准测试中匹配或超越纯文本模型。

本报告介绍Qwen3-VL及其进展。基于Qwen3系列,我们实例化了:

  • 四个稠密模型2B/4B/8B/32B
  • 两个混合专家(MoE)模型30B-A3B / 235B-A22B
    所有模型均使用最多256K标记的上下文窗口 训练,实现长上下文理解。通过优化训练语料库和策略,保留了底层LLM的语言能力 ,并显著提升整体性能。我们发布非思考和思考两种变体思考变体 在复杂推理任务上取得显著更强的多模态推理能力

1.1 架构改进

  1. 交错式MRoPE位置编码 :解决Qwen2.5-VL中嵌入维度拆分(时间t、水平h、垂直v)导致的频率谱不平衡 问题,使t/h/v在高低频段均匀分布,生成更准确的位置表示
  2. DeepStack跨层融合机制 :通过轻量级残差连接 ,将视觉编码器各层标记路由至对应LLM层,增强多级视觉-语言对齐,无需增加上下文长度。
  3. 显式视频时间戳 :替换基于位置编码的绝对时间对齐,提供更简洁直接的时间表示
    此外,采用平方根归一化的每标记损失,优化训练中文本与多模态数据的贡献平衡。

1.2 数据与训练优化

  • 数据优化 :增强标题监督、扩展OCR覆盖、结合3D空间推理的标准化定位 ,并新增代码/长文档/时间对齐视频语料库;融入思维链推理高质量GUI-代理交互数据 ,实现更强的多模态理解与精确定位
  • 训练流程
    • 预训练 :暖启动对齐(仅更新视觉-语言投影层)→ 全参数训练(上下文窗口逐步增大至8K/32K/256K序列长度)。
    • 后训练 :(i) 基于长思维链的监督微调 ,(ii) 教师模型知识蒸馏 ,(iii) 强化学习

上述创新使Qwen3-VL成为稳健的视觉-语言基础模型多模态智能灵活平台,无缝整合感知、推理与行动。后续章节将展示架构、训练框架及基准测试评估。

2 模型架构

Qwen3-VL采用三模块架构,包括视觉编码器基于MLP的视觉-语言融合器 以及大型语言模型(LLM) ,参考Qwen2.5-VL(Bai et al., 2025)。图1展示了详细模型结构。
大型语言模型 :Qwen3-VL以稠密变体(Qwen3-VL-2B/4B/8B/32B)和混合专家(MoE)变体(Qwen3-VL-30B-A3B, Qwen3-VL-235B-A22B)实现,均基于Qwen3骨干网络。旗舰模型Qwen3-VL-235B-A22B拥有 235B 总参数量,其中22B为激活参数。

图1:Qwen3-VL框架整合视觉编码器和语言模型解码器,处理多模态输入(文本、图像、视频)。视觉编码器处理动态原生分辨率输入,映射为可变长度视觉标记。引入 DeepStack机制 将视觉编码器多层标记注入LLM对应层,增强感知能力;采用交错式MROPE 对多模态输入编码位置信息,确保频率谱平衡;引入基于文本的时间戳标记优化视频序列时间结构捕捉。

视觉编码器 :采用SigLIP-2架构(Tschannen et al., 2025),使用动态输入分辨率训练,初始化自官方预训练检查点。适配动态分辨率时,应用2D-RoPE 并插值绝对位置嵌入(遵循CoMP方法,Chen et al., 2025)。默认使用SigLIP2-SO-400M变体,小型LLM(2B/4B)采用SigLIP2-Large(300M)。
基于MLP的视觉-语言融合器:使用两层MLP将视觉编码器的2×2特征压缩为单个视觉标记,对齐LLM隐藏维度;部署专用融合器支持DeepStack机制(细节见2.2节)。

2.1 交错式MROPE

Qwen2-VL(Wang et al., 2024c)的MROPE将嵌入维度划分为时间(t)、水平(h)、垂直(w)子空间,但频率谱不平衡导致长视频理解性能下降。改进方案通过交错嵌入维度中的t、h、w组件(Huang et al., 2025)实现均匀频率分配,消除频谱偏差,显著提升视频长距离位置建模能力。

2.2 DeepStack

扩展DeepStack方法(Meng et al., 2024),将视觉标记注入LLM多层级。区别于原始堆叠多尺度标记的方式,本设计从视觉Transformer(ViT)中间层提取视觉标记,保留低级到高级的丰富视觉信息。

2.3 Video Timestamp

针对Qwen2.5-VL中时间同步MRoPE的局限性:(1) 绝对时间绑定导致长视频位置ID庞大稀疏,削弱长时序理解;(2) 需多帧率均匀采样,增加训练成本。改用基于文本的时间编码策略(Chen et al., 2024b),为视频片段添加固定格式文本时间戳(如<3.0 seconds>),并在训练中混合秒和HMS(小时:分钟:秒)格式,提升时间感知效率,优化视频预训练和密集字幕任务。

3 预训练

3.1 训练方法

Qwen3-VL模型采用三模块架构 :视觉编码器、基于MLP的视觉-语言合并模块、Qwen3大语言模型(LLM)骨干网络。预训练分为四个阶段(S0-S3),概述见表1。

<表格1/>

Stage Objective Merger Token Budget Sequence Length
S0 视觉-语言对齐 Merger 67B 8,192
S1 多模态预训练 All ~1T 8,192
S2 长上下文预训练 All ~1T 32,768
S3 超长上下文适应 All 100B 262,144

阶段0:视觉-语言对齐。 仅训练MLP合并模块 ,视觉编码器和LLM冻结。使用**67B标记数据集,序列长度8,192**。

阶段1:多模态预训练。 解冻所有组件进行端到端训练。使用**~1T标记数据集,序列长度8,192**。

阶段2:长上下文预训练。 序列长度扩展至**32,768**,所有参数可训练。使用**~1T**标记数据集。

阶段3:超长上下文适应。 序列长度提升至**262,144**。使用**100B**标记数据集,专为长视频和长文档理解优化。

3.2 预训练数据

3.2.1 图像标题与交错文本-图像数据

图像标题数据 :构建高保真数据集,使用Qwen2.5-VL-32B模型优化标题生成。
交错文本-图像数据:从网站收集多模态文档,使用Qwen基础评分器过滤。构建特殊子集至**256K**标记,确保页面顺序和多模态连贯性。

3.2.2 知识

构建大规模实体中心数据集,覆盖**12+语义类别。采用基于重要性的采样策略**平衡长尾分布。

3.2.3 OCR、文档解析与长文档理解

OCR :筛选**3000万份样本,支持 39种语言(含 29种新增)。
文档解析:收集
300万份PDF( 10类均匀分布)和 400万**份内部文档。
长文档理解:合成多页文档序列,构建长文档视觉问答(VQA)数据。

3.2.4 视觉定位与计数

Box-based Grounding :聚合开源数据集(COCO等),构建大规模边界框定位数据集。
Point-based Grounding :整合公开点标注和合成高精度点标注。
Counting:构建包含直接计数、边界框计数和点计数的综合数据集。采用**[0, 1000]**归一化坐标系统提升鲁棒性。

3.2.5 空间理解与3D识别

Spatial Understanding :构建数据集包含关系标注、亲和力标注和动作导向查询。
3D Grounding:收集公共场景数据,格式化为视觉问答,使用**9-DoF**边界框标注。

3.2.6 代码

Text-Only Coding :复用Qwen3代码语料库,覆盖广泛编程语言。
Multimodal Coding:整理数据实现UI截图转HTML/CSS、图像转SVG等任务。

3.2.7 视频

Temporal-Aware Video Understanding :采用短到长字幕合成策略,增强空间-时间定位。
Video Data Balancing and Sampling:构建多样化视频数据集,采用长度自适应采样(动态调整fps和帧数)。

3.2.8 STEM

Visual Perception Data :生成**100万点定位样本和 200万视觉问答对。
Multi-modal Reasoning Data:筛选
6000万K-12和本科练习题,合成1200万**多模态推理样本。

3.2.9 Agent

GUI :构建跨平台GUI交互数据,包含元素描述和多步骤任务轨迹。
Function Calling :合成多模态功能调用轨迹。
Search:收集多模态事实性检索轨迹,整合在线搜索工具。

4 后训练

4.1 训练流程

后训练流程采用三阶段方法,优化模型指令遵循、推理能力及人类偏好对齐。

  • 监督微调 (SFT) 。第一阶段赋予模型指令遵循能力,分两阶段:初始**32K上下文长度,后扩展至256K**上下文窗口。训练数据分为标准格式(非思考模型)和思维链(CoT)格式(显式模拟推理)。
  • 强到弱蒸馏。第二阶段采用知识蒸馏,教师模型将能力传递给学生模型。使用仅文本数据微调大型语言模型(LLM),显著提升推理任务性能。
  • 强化学习 (RL)。最后一阶段利用RL提升性能和对齐,分为推理强化学习(Reasoning RL)和通用强化学习(General RL)。

4.2 冷启动数据

4.2.1 SFT 数据

数据集包含约**1,200,000个样本,分为单模态(1/3纯文本)和多模态(2/3图像-文本/视频-文本对)。训练策略分两阶段:初始 32K标记长度训练一个epoch,后256K**标记长度训练(含长上下文技术文档及两小时视频)。数据筛选流程包括:

  • 查询筛选:利用Qwen2.5-VL剔除模糊或低质量查询,保留高挑战性样本。
  • 响应筛选
    • 规则过滤:消除重复、不完整或格式不当的响应。
    • 模型过滤:使用Qwen2.5-VL奖励模型多维度评估(正确性、完整性、视觉信息利用),剔除不当语言混合或突兀文体转换的样本。

4.2.2 长思维链冷启动数据

数据集维持视觉-语言与纯文本样本1:1比例。多模态组件涵盖视觉问答(VQA)、光学字符识别(OCR)、2D/3D定位及视频分析,重点增强STEM和智能体工作流任务;纯文本部分包含数学、代码生成等挑战性问题。筛选流程:

  • 难度筛选:保留基准模型通过率低的实例。
  • 多模态必要性过滤:剔除Qwen3-30B-nothink模型无需视觉输入即可解决的样本。
  • 响应质量控制:移除错误答案及过度重复、语言混合不当的响应。

4.3 强到弱蒸馏

蒸馏过程分两阶段:

  • 离策略蒸馏:教师模型输出组合用于响应蒸馏,帮助学生模型习得基础推理能力。
  • 策略内蒸馏:学生模型生成响应后,通过最小化KL散度对齐学生与教师模型的logits。

4.4 强化学习

4.4.1 推理强化学习

训练数据经严格预处理和人工标注。多模态查询使用Qwen3-VL-235B-A22B模型每查询采样16个响应,全错查询被剔除。

4.4.2 通用强化学习

奖励函数基于多任务(VQA、图像描述、OCR等)优化:

  • 指令遵循:评估内容、格式及结构化输出(如JSON)的精确匹配。
  • 偏好对齐 :优化有用性、事实准确性和风格恰当性。
    通过可验证任务(如反直觉对象计数)纠正SFT阶段错误先验,并构建专用数据集抑制不当语言混合等行为。反馈机制:
  • 基于规则的奖励:为可验证任务提供高精度反馈。
  • 基于模型的奖励:使用Qwen2.5-VL-72B-Instruct或Qwen3判官模型多维度评估响应质量。

4.5 图像思考

受先前工作启发,采用两阶段训练范式实现代理能力。

4.6 基础设施

基于阿里巴巴云PAI-Lingjun服务训练,预训练阶段采用混合并行策略(张量并行、流水线并行等),在 10,000 个GPU规模下保持高吞吐量。推理部署使用vLLM(分页注意力)或SGLang,实现高效稳定推理。

5 评估

5.1 通用视觉问答

Qwen3-VL系列 在MMBench-V1.1、RealWorldQA、MMStar和SimpleVQA等基准测试上表现优异。Qwen3-VL-235B-A22B-Thinking 在MMStar上得分最高,为78.7Qwen3-VL-235B-A22B-Instruct 在MMBench和RealWorldQA上分别获得89.3/88.979.2
中等规模模型 中,Qwen3-VL-32B-Thinking 在MMBench和RealWorldQA上得分分别为89.5/89.579.4 ,其Instruct变体在RealWorldQA上得分为79.0
可扩展性 显著:Qwen3-VL-8B 在MMBench-EN上"thinking"模式分数从2B的79.9 提升至85.3 ;在MMStar上从68.1 提升至75.3

5.2 多模态推理

Qwen3-VL系列 在MMMU、MathVision等STEM相关基准测试中表现突出。旗舰模型

  • Qwen3-VL-235B-A22B-Instruct在MathVista_min等基准上取得非thinking模式最佳结果。
  • Qwen3-VL-235B-A22B-Thinking 在MathVista_min等基准上达到state-of-the-art 性能。
    中等规模模型Qwen3-VL-32B 显著优于Gemini-2.5-Flash和GPT-5-mini,并超越上一代Qwen2.5-VL-72B;Qwen3-VL-30B-A3B MoE 表现具竞争力。
    小型模型Qwen3-VL-8B 整体优势明显;Qwen3-VL-4B 在DynaMath和VisuLogic上得分最高;Qwen3-VL-2B 仍具强推理能力。

5.3 对齐与主观任务

Qwen3-VL 在MM-MT-Bench、HallusionBench和MIA-Bench上评估指令遵循与抗幻觉能力。旗舰模型 在MIA-Bench上准确率达91.5 ,展现优异对齐性能。

5.4 文本识别与文档理解

Qwen3-VL-235B-A22B在OCR基准(CC-OCR、OCR-Bench等)和文档QA基准(DocVQA、ChartQA等)上表现领先:

  • OCR解析 :在CC-OCR上得分79.9(thinking模式)。
  • 文档理解 :在CharXiv描述子集上Instruct/Thinking变体表现相当;在CharXiv推理子集上Thinking变体得分53.0,仅次于GPT5-Thinking。
  • 长文档理解 :在MMLongBench-Doc上指令/思考模式准确率分别达57.0% /56.2%
  • 多语言支持 :支持39种语言,32种语言准确率超70%

表格在5.3

5.5 2D 和 3D 定位

2D定位Qwen3-VL-235B-A22B 在ODinW-13上mAP达48.6 ,RefCOCO-avg得分89.1 ,均为SOTA。
3D定位 :在Omni3D基准上,Qwen3-VL-235B-A22B-Thinking 在SUN RGB-D上比Gemini-2.5-Pro高5.2 分。
小型模型 :Qwen3-VL-30BA3B等在2D/3D任务上表现具竞争力。

表格在5.3

5.6 细粒度感知

Qwen3-VL-235B-A22B在工具增强下达到SOTA:

  • V* :得分93.7
  • HRBench-4k :得分85.3
  • HRBench-8k :得分82.3
    关键发现:工具集成带来的性能提升(如V*上+5分)显著优于单纯扩大模型规模。

5.7 多图像理解

Qwen3-VL在BLINK和MuirBench上表现领先:

  • Qwen3-VL-235B-A22B-Thinking 在MuirBench上得分80.1 ,超越所有模型。
    表格在5.3

5.8 具身与空间理解

Qwen3-VL-235B-A22在具身空间基准上表现优异:

  • EmbSpatialBench :得分84.3
  • RefSpatialBench :得分69.9
  • RoboSpatialHome :得分73.9
  • ERQA :得分52.5

5.9 视频理解

Qwen3-VL通过交错MROPE等架构增强提升视频理解:

  • Qwen3-VL-8B性能接近Qwen2.5-VL-72B。
  • 旗舰模型 在MLVU上超越Gemini-2.5-Pro;在VideoMMMU上得分90.1(工具增强)。
  • 长视频支持:256K上下文窗口在MLVU上表现突出。

5.10 代理能力

Qwen3-VL在GUI任务中表现卓越:

  • ScreenSpot Pro :得分54.6(thinking模式)
  • OSWorld :得分58.2
  • AndroidWorld :得分63.7
    小型模型在代理任务上具竞争力。


5.11 文本中心任务

Qwen3-VL-235B-A22B

  • Instruct模式:在数学/编码任务上超越DeepSeek V3等模型。
  • Thinking模式 :在AIME-25上得分81.4 ,超越OpenAI o3。
    中等模型Qwen3-VL-32B/30B-A3B 在AIME-25等任务上显著优于纯文本基线。
    小型模型Qwen3-VL-8B/4B/2B 通过蒸馏实现高效性能。

5.12 消融研究

5.12.1 视觉编码器

Qwen3-ViT 在OmniBench上显著优于SigLIP-2基线,证明其作为视觉骨干的有效性。

5.12.2 DeepStack

DeepStack机制 提升细粒度理解:在InfoVQA上得分86.0 ,DocVQA上96.1

5.12.3 长视频定位

针尖上找针任务

  • 30分钟视频(256K标记)准确率100%
  • 2小时视频(1M标记)准确率99.5% ,验证强长序列建模能力。

6 结论

提出Owen3-VL 视觉-语言基础模型。通过架构创新------如增强的交错式MkRoPEDeepStack视觉-语言对齐基于文本的时间定位 ------在多模态基准测试中实现了**前所未有的性能**,并保持纯文本能力。原生支持256K标记交错序列,能对长文档、图像序列和视频进行稳健推理。提供** 密集模型 混合专家(MoE)变体**,支持不同延迟和质量要求的灵活部署;后训练策略包括非思考模式思考模式 。未来工作聚焦于扩展能力实现交互式感知工具增强推理实时多模态控制 ;探索统一的理解-生成架构 ;模型以Apache 2.0许可证公开发布。

相关推荐
会挠头但不秃2 小时前
深度学习常用工具和库介绍
人工智能·深度学习
诗远Yolanda2 小时前
【EI检索会议】第二届国际人工智能创新研讨会(IS-AII 2026)
图像处理·人工智能·深度学习·机器学习·计算机视觉·机器人
红宝村村长3 小时前
【学习笔记】全解深度学习
笔记·深度学习·学习
鲨莎分不晴3 小时前
从 0 实现一个 Offline RL 算法 (以 IQL 为例)
人工智能·深度学习·机器学习
rayufo3 小时前
深度学习图像复原论文《SwinIR: Image Restoration Using Swin Transformer》解读及其代码实现
人工智能·深度学习·transformer
AI即插即用3 小时前
即插即用系列 | CMPB PMFSNet:多尺度特征自注意力网络,打破轻量级医学图像分割的性能天花板
网络·图像处理·人工智能·深度学习·神经网络·计算机视觉·视觉检测
JH灰色3 小时前
【大模型】-微调-BERT
人工智能·深度学习·bert
CoovallyAIHub4 小时前
无人机低空视觉数据集全景解读:从单机感知到具身智能的跨越
深度学习·算法·计算机视觉
m0_692457104 小时前
ROI切割-感兴趣区域
人工智能·深度学习·计算机视觉