
demo: https://chat.qwen.ai
模型: https://huggingface.co/Qwen 或 https://modelscope.cn/organization/qwen
github: https://github.com/QwenLM/Qwen3-VL
论文地址:https://arxiv.org/pdf/2511.21631
Qwen3-VL 是Qwen系列中能力最强的视觉-语言模型 ,在多模态基准测试中表现优异。该模型原生支持高达256K个标记的交错上下文 ,无缝整合文本、图像和视频。模型家族包含两类:稠密模型 (2B/4B/8B/32B)和专家混合模型(30B-A3B/235B-A22B),以适应不同延迟-质量权衡。
Qwen3-VL交付三大核心支柱:
(i) 显著更强的纯文本理解能力 ,在某些场景超越同类纯文本骨干模型;
(ii) 强大的长上下文理解能力 ,原生支持256K标记窗口,适用于文本和交错多模态输入,能忠实保留、检索及跨长文档/视频交叉引用;
(iii) 先进的多模态推理能力 ,在单图像、多图像和视频任务上,于MMLU、Math-Vista和MathVision等基准测试中展现出领先的性能。
架构层面引入三项关键升级:
(i) 增强的交错-MRoPE ,提升图像和视频的时空建模;
(ii) DeepStack集成 ,利用多级ViT特征强化视觉-语言对齐;
(iii) 基于文本的时间对齐,从T-RoPE演进到显式文本时间戳对齐,实现更精确时间定位。
为平衡纯文本和多模态学习目标,应用平方根重加权 ,在不损害文本能力下提升多模态性能。预训练扩展至256K标记上下文长度,后训练分为非思考 和思考 两种变体,并分配额外计算资源以提升性能。在相同标记预算和延迟约束下,Qwen3-VL在稠密模型和专家混合(MoE)架构中均取得优异的性能 。

1 Introduction
视觉-语言模型(VLMs)已从基础视觉感知发展到高级多模态推理(如图像、视频理解)。关键要求是不削弱底层大语言模型(LLM)的语言能力,多模态模型需在语言基准测试中匹配或超越纯文本模型。
本报告介绍Qwen3-VL及其进展。基于Qwen3系列,我们实例化了:
- 四个稠密模型 (2B/4B/8B/32B)
- 两个混合专家(MoE)模型 (30B-A3B / 235B-A22B )
所有模型均使用最多256K标记的上下文窗口 训练,实现长上下文理解。通过优化训练语料库和策略,保留了底层LLM的语言能力 ,并显著提升整体性能。我们发布非思考和思考两种变体 ;思考变体 在复杂推理任务上取得显著更强的多模态推理能力。
1.1 架构改进
- 交错式MRoPE位置编码 :解决Qwen2.5-VL中嵌入维度拆分(时间t、水平h、垂直v)导致的频率谱不平衡 问题,使t/h/v在高低频段均匀分布,生成更准确的位置表示。
- DeepStack跨层融合机制 :通过轻量级残差连接 ,将视觉编码器各层标记路由至对应LLM层,增强多级视觉-语言对齐,无需增加上下文长度。
- 显式视频时间戳 :替换基于位置编码的绝对时间对齐,提供更简洁直接的时间表示 。
此外,采用平方根归一化的每标记损失,优化训练中文本与多模态数据的贡献平衡。
1.2 数据与训练优化
- 数据优化 :增强标题监督、扩展OCR覆盖、结合3D空间推理的标准化定位 ,并新增代码/长文档/时间对齐视频语料库;融入思维链推理 和高质量GUI-代理交互数据 ,实现更强的多模态理解与精确定位。
- 训练流程 :
- 预训练 :暖启动对齐(仅更新视觉-语言投影层)→ 全参数训练(上下文窗口逐步增大至8K/32K/256K序列长度)。
- 后训练 :(i) 基于长思维链的监督微调 ,(ii) 教师模型知识蒸馏 ,(iii) 强化学习。
上述创新使Qwen3-VL成为稳健的视觉-语言基础模型 和多模态智能灵活平台,无缝整合感知、推理与行动。后续章节将展示架构、训练框架及基准测试评估。
2 模型架构
Qwen3-VL采用三模块架构,包括视觉编码器 、基于MLP的视觉-语言融合器 以及大型语言模型(LLM) ,参考Qwen2.5-VL(Bai et al., 2025)。图1展示了详细模型结构。
大型语言模型 :Qwen3-VL以稠密变体(Qwen3-VL-2B/4B/8B/32B)和混合专家(MoE)变体(Qwen3-VL-30B-A3B, Qwen3-VL-235B-A22B)实现,均基于Qwen3骨干网络。旗舰模型Qwen3-VL-235B-A22B拥有 235B 总参数量,其中22B为激活参数。

图1:Qwen3-VL框架整合视觉编码器和语言模型解码器,处理多模态输入(文本、图像、视频)。视觉编码器处理动态原生分辨率输入,映射为可变长度视觉标记。引入 DeepStack机制 将视觉编码器多层标记注入LLM对应层,增强感知能力;采用交错式MROPE 对多模态输入编码位置信息,确保频率谱平衡;引入基于文本的时间戳标记优化视频序列时间结构捕捉。
视觉编码器 :采用SigLIP-2架构(Tschannen et al., 2025),使用动态输入分辨率训练,初始化自官方预训练检查点。适配动态分辨率时,应用2D-RoPE 并插值绝对位置嵌入(遵循CoMP方法,Chen et al., 2025)。默认使用SigLIP2-SO-400M变体,小型LLM(2B/4B)采用SigLIP2-Large(300M)。
基于MLP的视觉-语言融合器:使用两层MLP将视觉编码器的2×2特征压缩为单个视觉标记,对齐LLM隐藏维度;部署专用融合器支持DeepStack机制(细节见2.2节)。
2.1 交错式MROPE
Qwen2-VL(Wang et al., 2024c)的MROPE将嵌入维度划分为时间(t)、水平(h)、垂直(w)子空间,但频率谱不平衡导致长视频理解性能下降。改进方案通过交错嵌入维度中的t、h、w组件(Huang et al., 2025)实现均匀频率分配,消除频谱偏差,显著提升视频长距离位置建模能力。
2.2 DeepStack
扩展DeepStack方法(Meng et al., 2024),将视觉标记注入LLM多层级。区别于原始堆叠多尺度标记的方式,本设计从视觉Transformer(ViT)中间层提取视觉标记,保留低级到高级的丰富视觉信息。
2.3 Video Timestamp
针对Qwen2.5-VL中时间同步MRoPE的局限性:(1) 绝对时间绑定导致长视频位置ID庞大稀疏,削弱长时序理解;(2) 需多帧率均匀采样,增加训练成本。改用基于文本的时间编码策略(Chen et al., 2024b),为视频片段添加固定格式文本时间戳(如<3.0 seconds>),并在训练中混合秒和HMS(小时:分钟:秒)格式,提升时间感知效率,优化视频预训练和密集字幕任务。
3 预训练
3.1 训练方法
Qwen3-VL模型采用三模块架构 :视觉编码器、基于MLP的视觉-语言合并模块、Qwen3大语言模型(LLM)骨干网络。预训练分为四个阶段(S0-S3),概述见表1。
<表格1/>
| Stage | Objective | Merger | Token Budget | Sequence Length |
|---|---|---|---|---|
| S0 | 视觉-语言对齐 | Merger | 67B | 8,192 |
| S1 | 多模态预训练 | All | ~1T | 8,192 |
| S2 | 长上下文预训练 | All | ~1T | 32,768 |
| S3 | 超长上下文适应 | All | 100B | 262,144 |
阶段0:视觉-语言对齐。 仅训练MLP合并模块 ,视觉编码器和LLM冻结。使用**67B标记数据集,序列长度8,192**。
阶段1:多模态预训练。 解冻所有组件进行端到端训练。使用**~1T标记数据集,序列长度8,192**。
阶段2:长上下文预训练。 序列长度扩展至**32,768**,所有参数可训练。使用**~1T**标记数据集。
阶段3:超长上下文适应。 序列长度提升至**262,144**。使用**100B**标记数据集,专为长视频和长文档理解优化。
3.2 预训练数据
3.2.1 图像标题与交错文本-图像数据
图像标题数据 :构建高保真数据集,使用Qwen2.5-VL-32B模型优化标题生成。
交错文本-图像数据:从网站收集多模态文档,使用Qwen基础评分器过滤。构建特殊子集至**256K**标记,确保页面顺序和多模态连贯性。
3.2.2 知识
构建大规模实体中心数据集,覆盖**12+语义类别。采用基于重要性的采样策略**平衡长尾分布。
3.2.3 OCR、文档解析与长文档理解
OCR :筛选**3000万份样本,支持 39种语言(含 29种新增)。
文档解析:收集 300万份PDF( 10类均匀分布)和 400万**份内部文档。
长文档理解:合成多页文档序列,构建长文档视觉问答(VQA)数据。
3.2.4 视觉定位与计数
Box-based Grounding :聚合开源数据集(COCO等),构建大规模边界框定位数据集。
Point-based Grounding :整合公开点标注和合成高精度点标注。
Counting:构建包含直接计数、边界框计数和点计数的综合数据集。采用**[0, 1000]**归一化坐标系统提升鲁棒性。
3.2.5 空间理解与3D识别
Spatial Understanding :构建数据集包含关系标注、亲和力标注和动作导向查询。
3D Grounding:收集公共场景数据,格式化为视觉问答,使用**9-DoF**边界框标注。
3.2.6 代码
Text-Only Coding :复用Qwen3代码语料库,覆盖广泛编程语言。
Multimodal Coding:整理数据实现UI截图转HTML/CSS、图像转SVG等任务。
3.2.7 视频
Temporal-Aware Video Understanding :采用短到长字幕合成策略,增强空间-时间定位。
Video Data Balancing and Sampling:构建多样化视频数据集,采用长度自适应采样(动态调整fps和帧数)。
3.2.8 STEM
Visual Perception Data :生成**100万点定位样本和 200万视觉问答对。
Multi-modal Reasoning Data:筛选 6000万K-12和本科练习题,合成1200万**多模态推理样本。
3.2.9 Agent
GUI :构建跨平台GUI交互数据,包含元素描述和多步骤任务轨迹。
Function Calling :合成多模态功能调用轨迹。
Search:收集多模态事实性检索轨迹,整合在线搜索工具。
4 后训练
4.1 训练流程
后训练流程采用三阶段方法,优化模型指令遵循、推理能力及人类偏好对齐。
- 监督微调 (SFT) 。第一阶段赋予模型指令遵循能力,分两阶段:初始**32K上下文长度,后扩展至256K**上下文窗口。训练数据分为标准格式(非思考模型)和思维链(CoT)格式(显式模拟推理)。
- 强到弱蒸馏。第二阶段采用知识蒸馏,教师模型将能力传递给学生模型。使用仅文本数据微调大型语言模型(LLM),显著提升推理任务性能。
- 强化学习 (RL)。最后一阶段利用RL提升性能和对齐,分为推理强化学习(Reasoning RL)和通用强化学习(General RL)。
4.2 冷启动数据
4.2.1 SFT 数据
数据集包含约**1,200,000个样本,分为单模态(1/3纯文本)和多模态(2/3图像-文本/视频-文本对)。训练策略分两阶段:初始 32K标记长度训练一个epoch,后256K**标记长度训练(含长上下文技术文档及两小时视频)。数据筛选流程包括:
- 查询筛选:利用Qwen2.5-VL剔除模糊或低质量查询,保留高挑战性样本。
- 响应筛选 :
- 规则过滤:消除重复、不完整或格式不当的响应。
- 模型过滤:使用Qwen2.5-VL奖励模型多维度评估(正确性、完整性、视觉信息利用),剔除不当语言混合或突兀文体转换的样本。
4.2.2 长思维链冷启动数据
数据集维持视觉-语言与纯文本样本1:1比例。多模态组件涵盖视觉问答(VQA)、光学字符识别(OCR)、2D/3D定位及视频分析,重点增强STEM和智能体工作流任务;纯文本部分包含数学、代码生成等挑战性问题。筛选流程:
- 难度筛选:保留基准模型通过率低的实例。
- 多模态必要性过滤:剔除Qwen3-30B-nothink模型无需视觉输入即可解决的样本。
- 响应质量控制:移除错误答案及过度重复、语言混合不当的响应。
4.3 强到弱蒸馏
蒸馏过程分两阶段:
- 离策略蒸馏:教师模型输出组合用于响应蒸馏,帮助学生模型习得基础推理能力。
- 策略内蒸馏:学生模型生成响应后,通过最小化KL散度对齐学生与教师模型的logits。
4.4 强化学习
4.4.1 推理强化学习
训练数据经严格预处理和人工标注。多模态查询使用Qwen3-VL-235B-A22B模型每查询采样16个响应,全错查询被剔除。
4.4.2 通用强化学习
奖励函数基于多任务(VQA、图像描述、OCR等)优化:
- 指令遵循:评估内容、格式及结构化输出(如JSON)的精确匹配。
- 偏好对齐 :优化有用性、事实准确性和风格恰当性。
通过可验证任务(如反直觉对象计数)纠正SFT阶段错误先验,并构建专用数据集抑制不当语言混合等行为。反馈机制: - 基于规则的奖励:为可验证任务提供高精度反馈。
- 基于模型的奖励:使用Qwen2.5-VL-72B-Instruct或Qwen3判官模型多维度评估响应质量。
4.5 图像思考
受先前工作启发,采用两阶段训练范式实现代理能力。
4.6 基础设施
基于阿里巴巴云PAI-Lingjun服务训练,预训练阶段采用混合并行策略(张量并行、流水线并行等),在 10,000 个GPU规模下保持高吞吐量。推理部署使用vLLM(分页注意力)或SGLang,实现高效稳定推理。
5 评估
5.1 通用视觉问答
Qwen3-VL系列 在MMBench-V1.1、RealWorldQA、MMStar和SimpleVQA等基准测试上表现优异。Qwen3-VL-235B-A22B-Thinking 在MMStar上得分最高,为78.7 ;Qwen3-VL-235B-A22B-Instruct 在MMBench和RealWorldQA上分别获得89.3/88.9 和79.2 。
中等规模模型 中,Qwen3-VL-32B-Thinking 在MMBench和RealWorldQA上得分分别为89.5/89.5 和79.4 ,其Instruct变体在RealWorldQA上得分为79.0 。
可扩展性 显著:Qwen3-VL-8B 在MMBench-EN上"thinking"模式分数从2B的79.9 提升至85.3 ;在MMStar上从68.1 提升至75.3。
5.2 多模态推理
Qwen3-VL系列 在MMMU、MathVision等STEM相关基准测试中表现突出。旗舰模型:
- Qwen3-VL-235B-A22B-Instruct在MathVista_min等基准上取得非thinking模式最佳结果。
- Qwen3-VL-235B-A22B-Thinking 在MathVista_min等基准上达到state-of-the-art 性能。
中等规模模型 :Qwen3-VL-32B 显著优于Gemini-2.5-Flash和GPT-5-mini,并超越上一代Qwen2.5-VL-72B;Qwen3-VL-30B-A3B MoE 表现具竞争力。
小型模型 :Qwen3-VL-8B 整体优势明显;Qwen3-VL-4B 在DynaMath和VisuLogic上得分最高;Qwen3-VL-2B 仍具强推理能力。


5.3 对齐与主观任务
Qwen3-VL 在MM-MT-Bench、HallusionBench和MIA-Bench上评估指令遵循与抗幻觉能力。旗舰模型 在MIA-Bench上准确率达91.5 ,展现优异对齐性能。

5.4 文本识别与文档理解
Qwen3-VL-235B-A22B在OCR基准(CC-OCR、OCR-Bench等)和文档QA基准(DocVQA、ChartQA等)上表现领先:
- OCR解析 :在CC-OCR上得分79.9(thinking模式)。
- 文档理解 :在CharXiv描述子集上Instruct/Thinking变体表现相当;在CharXiv推理子集上Thinking变体得分53.0,仅次于GPT5-Thinking。
- 长文档理解 :在MMLongBench-Doc上指令/思考模式准确率分别达57.0% /56.2%。
- 多语言支持 :支持39种语言,32种语言准确率超70%。

表格在5.3
5.5 2D 和 3D 定位
2D定位 :Qwen3-VL-235B-A22B 在ODinW-13上mAP达48.6 ,RefCOCO-avg得分89.1 ,均为SOTA。
3D定位 :在Omni3D基准上,Qwen3-VL-235B-A22B-Thinking 在SUN RGB-D上比Gemini-2.5-Pro高5.2 分。
小型模型 :Qwen3-VL-30BA3B等在2D/3D任务上表现具竞争力。
表格在5.3
5.6 细粒度感知
Qwen3-VL-235B-A22B在工具增强下达到SOTA:
- V* :得分93.7
- HRBench-4k :得分85.3
- HRBench-8k :得分82.3
关键发现:工具集成带来的性能提升(如V*上+5分)显著优于单纯扩大模型规模。
5.7 多图像理解
Qwen3-VL在BLINK和MuirBench上表现领先:
- Qwen3-VL-235B-A22B-Thinking 在MuirBench上得分80.1 ,超越所有模型。
表格在5.3
5.8 具身与空间理解
Qwen3-VL-235B-A22在具身空间基准上表现优异:
- EmbSpatialBench :得分84.3
- RefSpatialBench :得分69.9
- RoboSpatialHome :得分73.9
- ERQA :得分52.5
5.9 视频理解
Qwen3-VL通过交错MROPE等架构增强提升视频理解:
- Qwen3-VL-8B性能接近Qwen2.5-VL-72B。
- 旗舰模型 在MLVU上超越Gemini-2.5-Pro;在VideoMMMU上得分90.1(工具增强)。
- 长视频支持:256K上下文窗口在MLVU上表现突出。
5.10 代理能力
Qwen3-VL在GUI任务中表现卓越:
- ScreenSpot Pro :得分54.6(thinking模式)
- OSWorld :得分58.2
- AndroidWorld :得分63.7
小型模型在代理任务上具竞争力。



5.11 文本中心任务
Qwen3-VL-235B-A22B:
- Instruct模式:在数学/编码任务上超越DeepSeek V3等模型。
- Thinking模式 :在AIME-25上得分81.4 ,超越OpenAI o3。
中等模型 :Qwen3-VL-32B/30B-A3B 在AIME-25等任务上显著优于纯文本基线。
小型模型 :Qwen3-VL-8B/4B/2B 通过蒸馏实现高效性能。


5.12 消融研究
5.12.1 视觉编码器
Qwen3-ViT 在OmniBench上显著优于SigLIP-2基线,证明其作为视觉骨干的有效性。

5.12.2 DeepStack
DeepStack机制 提升细粒度理解:在InfoVQA上得分86.0 ,DocVQA上96.1 。

5.12.3 长视频定位
针尖上找针任务:
- 30分钟视频(256K标记)准确率100%。
- 2小时视频(1M标记)准确率99.5% ,验证强长序列建模能力。

6 结论
提出Owen3-VL 视觉-语言基础模型。通过架构创新------如增强的交错式MkRoPE 、DeepStack视觉-语言对齐 和基于文本的时间定位 ------在多模态基准测试中实现了**前所未有的性能**,并保持纯文本能力。原生支持256K标记交错序列,能对长文档、图像序列和视频进行稳健推理。提供** 密集模型和 混合专家(MoE)变体**,支持不同延迟和质量要求的灵活部署;后训练策略包括非思考模式 和思考模式 。未来工作聚焦于扩展能力实现交互式感知 、工具增强推理 和实时多模态控制 ;探索统一的理解-生成架构 ;模型以Apache 2.0许可证公开发布。