【Qwen3-VL】请你用易懂且简洁的语言来介绍一下Qwen3VL的图像预处理

Gemini3-Pro-Cursor:没问题,以下是针对 Qwen3-VL (及 Qwen2-VL) 独特的 "动态分辨率 (Dynamic Resolution) + M-RoPE" 机制的介绍

Qwen3-VL 核心解密:它是如何"看"图的?

在传统的 VLM(如 LLaVA v1.5)中,图像处理简单粗暴:无论原图什么样,一律强行拉伸/填充成 336×336336 \times 336336×336 的正方形。这种做法既破坏了长宽比,又浪费了计算量(大量 padding)。

Qwen3-VL 摒弃了这种做法,采用了一套更符合人类直觉的 Naive Dynamic Resolution(原生动态分辨率) 机制。

1. 拒绝"一刀切",保留原比例

Qwen3-VL 不会强制改变图像的长宽比。

  • 输入 :任意尺寸、任意比例的图像(如 1000×5001000 \times 5001000×500 的全景图)。
  • 处理
    1. Resize : 基于 Patch Size (14) 进行智能缩放,确保长宽都是 28 的倍数(为了适配 2×22 \times 22×2 Pooling)。
    2. Patching : 直接将处理后的图像切成 H×WH \times WH×W 个 Patch。
  • 结果 :不同图像生成的 Token 数量是变长的。一张高清图可能产生 1000 个 Token,而一个小图标可能只有 16 个 Token。
2. M-RoPE:给位置打上"三维"标签

由于 Token 序列变长了,传统的绝对位置编码(Absolute Position Embedding)失效了。Qwen3-VL 引入了 M-RoPE (Multimodal Rotary Positional Embeddings)

它不再把图像看作一维的长条序列,而是将其视为 3D 空间 (Time, Height, Width)

  • 传统 LLM : 只有一维位置 pos_id = [0, 1, 2, ...]
  • Qwen3-VL : 每个 Token 拥有三个坐标 (t, h, w)
    • t: 时间帧(处理视频时用,图片则为 0)
    • h: 垂直高度坐标
    • w: 水平宽度坐标

通过这种方式,即使两个物体在 Token 序列中相隔很远(因为换行了),只要它们的 (h, w) 坐标相邻,模型依然知道它们在空间上是挨着的。

3. Patch Merging:视觉特征"压缩"

为了提高效率,视觉编码器输出特征后,会经过一个 2×22 \times 22×2 的池化(Pooling)层:

  • 每 2×22 \times 22×2 (4个) 视觉 Token 合并为 1 个 Token 输入给 LLM。
  • 这就像把一张 1000px1000 \text{px}1000px 的图"无损压缩"给大脑,既保留了语义,又减轻了 LLM 的负担。

一句话总结:

Qwen3-VL 像人眼一样,按需分配注意力:大图看细节(多 Token),小图看概貌(少 Token),并用 3D 坐标系(M-RoPE)精准定位空间关系,彻底告别了"正方形执念"。


这段介绍既涵盖了动态分辨率 ,也提到了配套的 M-RoPEPatch Merging,逻辑完整且通俗易懂。希望能丰富你的博客内容!

相关推荐
ASS-ASH12 小时前
AI时代之向量数据库概览
数据库·人工智能·python·llm·embedding·向量数据库·vlm
一个处女座的程序猿4 天前
CV之VLM之LLM-OCR:《DeepSeek-OCR 2: Visual Causal Flow》翻译与解读
llm·ocr·cv·vlm
leo03085 天前
深入解析 π₀ 与 π₀.5:Physical Intelligence 的机器人基础模型演进
vla·vlm
国家一级假勤奋大学生6 天前
InternVL系列 technical report 解析
大模型·llm·vlm·mllm·internvl·调研笔记
具身智能之心7 天前
ICLR 2026中稿工作VLASER: 究竟哪些多模态能力和数据对提升机器人的控制表现最关键?
具身智能·vlm·iclr 2026
一颗小树x7 天前
《VLA 系列》从 VLM 到 VLA 机器人控制,关键的多模态数据和能力是什么?| Vlaser | ICLR 2026
人工智能·深度学习·机器人·vlm·vlaser
安如衫8 天前
从 OCR 到多模态 VLM Agentic AI:智能文档问答的范式转移全解
人工智能·ocr·agent·cv·rag·vlm
hjs_deeplearning10 天前
认知篇#15:ms-swift微调中gradient_accumulation_steps和warmup_ratio等参数的意义与设置
开发语言·人工智能·机器学习·swift·vlm
一颗小树x11 天前
Qwen3-VL 目标检测 | 生成训练标签 | LabelMe格式 | COCO格式
目标检测·vlm·模型推理·vllm加速·标注数据
山顶夕景19 天前
【VLM】Format Decoupled Reinforcement Learning for Document OCR
大模型·llm·ocr·多模态·文档智能·vlm