Qwen1/2/2.5/3 VL的图像处理与位置编码方式讲解

Qwen2 VL visual encoder

Qwen2 VL中在patch size的基础上还会通过MLP 做一个2*2的merge,进一步减小viusal token输,并加上start 和 end token。

注意:在Qwen2VL以及Qwen2.5/3VL中,单张图像都是视为2张同样的帧作为输入的,因此在通过image_processor时,一个patch的pixel shape是14*14*3(RGB)* 2(视为相同2帧)= 1176

M-RoPE: MultimodalRotaryPositionEmbedding

Qwen2 VL做2D grounding还是采取的类似Qwen1 VL的特殊token的表示形式:

Qwen1 VL visual encoder

Qwen1 VL的visual encoder 其实是一个Q -former的架构,通过256个可学习的token来表示图像,并且这个版本中还不支持视频输入。只支持输出2D normaliezd 的bbox。范围是归一化到0,1000的图像grid空间。表示方式是文本,并通过<ref> ,和<box>的方式指代物体和对应的box。

相关推荐
放下华子我只抽RuiKe519 天前
FastAPI 全栈后端(六):中间件与依赖注入
ai·中间件·fastapi·ai编程·qwen·ai大模型·openclaw
雲明22 天前
Qwen2.5-7B-Instruct实战教程:Chainlit集成语音输入(Whisper API)
语音识别·大语言模型·qwen·chainlit
Python私教22 天前
Cursor + Claude Code 全流程实战:搭一套生产级 AI 编程工作流(2026 最新版)
人工智能·语言模型·qwen·ollama·本地大模型·大模型部署·deepseek
周公1 个月前
Claude code使用第三方算力安装配置过程
claude·qwen·claude code·open claw
bryant_meng1 个月前
【Hugging Face】The GitHub of Open-Source AI Models
人工智能·github·qwen·hugging face·clip
兆。1 个月前
多模态模型详解:从拼接式到原生统一架构
架构·qwen·多模态模型·ollama
兆。1 个月前
如何在本地搭建天气智能体项目
langchain·openai·qwen·ollama·本地大模型
虎鲸不是鱼1 个月前
LM Studio使用MTP的qwen3.6-27B-以7840hs的780M为例
大模型·llm·qwen·lm studio·mtp
格桑阿sir1 个月前
05-大模型智能体开发工程师:本地部署开源小模型实战
ai·大模型·llm·部署·agent·qwen·本地部署