Qwen1/2/2.5/3 VL的图像处理与位置编码方式讲解

Qwen2 VL visual encoder

Qwen2 VL中在patch size的基础上还会通过MLP 做一个2*2的merge,进一步减小viusal token输,并加上start 和 end token。

注意:在Qwen2VL以及Qwen2.5/3VL中,单张图像都是视为2张同样的帧作为输入的,因此在通过image_processor时,一个patch的pixel shape是14*14*3(RGB)* 2(视为相同2帧)= 1176

M-RoPE: MultimodalRotaryPositionEmbedding

Qwen2 VL做2D grounding还是采取的类似Qwen1 VL的特殊token的表示形式:

Qwen1 VL visual encoder

Qwen1 VL的visual encoder 其实是一个Q -former的架构,通过256个可学习的token来表示图像,并且这个版本中还不支持视频输入。只支持输出2D normaliezd 的bbox。范围是归一化到[0,1000]的图像grid空间。表示方式是文本,并通过<ref> ,和<box>的方式指代物体和对应的box。

相关推荐
进击切图仔4 天前
微调 qwen 时候踩坑记录
torch·tensorrt·qwen
故事还在继续吗10 天前
Mac 本地部署大模型
macos·llm·qwen
YJlio15 天前
OpenClaw v2026.3.23-2 更新解析:Qwen 接入、Knot 主题、插件稳定性、升级验证与避坑清单
自动化运维·qwen·版本更新·ai agent·插件系统·openclaw·clawhub
YJlio15 天前
OpenClaw v2026.3.28 更新解析:Qwen 认证迁移、xAI Responses API、MiniMax 图像生成、插件审批与升级避坑
自动化运维·qwen·版本更新·ai agent·插件系统·xai·openclaw
今夕资源网20 天前
Qwen3-TTS官方原功能启动版一键启动包 支持3秒克隆 情绪控制 语音设计
qwen·语音克隆·克隆声音·qwen3tts·qwentts·tts软件·音色设计
搬砖魁首24 天前
基础能力系列 - 如何安全养虾? - 容器化部署龙虾
docker·qwen·openclaw·龙虾
Anesthesia丶1 个月前
Qwen2.5-1.5b 模型部署与LORA训练笔记
pytorch·python·lora·llm·qwen·vllm
搬砖的前端1 个月前
本地模型+TRAE CN 打造最优模型组合实测:开源主模型+本地辅模型,对标GPT5.2/5.3/Gemini-3-Flash
前端·ai·mac·ai编程·qwen·trae·qwen3.6
碳基硅坊1 个月前
Mac Studio M3 Ultra 运行大模型实测:Qwen3.6 vs 6款主流模型工具调用对比
人工智能·qwen·qwen3.6