Qwen1/2/2.5/3 VL的图像处理与位置编码方式讲解

Qwen2 VL visual encoder

Qwen2 VL中在patch size的基础上还会通过MLP 做一个2*2的merge,进一步减小viusal token输,并加上start 和 end token。

注意:在Qwen2VL以及Qwen2.5/3VL中,单张图像都是视为2张同样的帧作为输入的,因此在通过image_processor时,一个patch的pixel shape是14*14*3(RGB)* 2(视为相同2帧)= 1176

M-RoPE: MultimodalRotaryPositionEmbedding

Qwen2 VL做2D grounding还是采取的类似Qwen1 VL的特殊token的表示形式:

Qwen1 VL visual encoder

Qwen1 VL的visual encoder 其实是一个Q -former的架构,通过256个可学习的token来表示图像,并且这个版本中还不支持视频输入。只支持输出2D normaliezd 的bbox。范围是归一化到[0,1000]的图像grid空间。表示方式是文本,并通过<ref> ,和<box>的方式指代物体和对应的box。

相关推荐
小田学Python2 天前
Dify+Ollama模型搭建攻略:本地环境实战指南
大模型·qwen·dify·ollama
Pyeako3 天前
大模型--OpenAI&创建阿里云百炼API Key
python·阿里云·大模型·云计算·openai·qwen·api key
gujunge3 天前
Spring with AI (3): 定制对话——Prompt模板引入
ai·大模型·llm·openai·qwen·rag·spring ai·deepseek
村中少年4 天前
本地模型工具ollama配置使用openclaw指南
llm·nodejs·虚拟机·qwen·ollama·openclaw
gujunge4 天前
Spring with AI (2): 评估答案——UnitTest引入
ai·大模型·llm·openai·qwen·rag·spring ai·deepseek
core5128 天前
openclaw部署及qwen模型配置
部署·模型·qwen·卸载·百炼·openclaw·小龙虾
l1t8 天前
在Windows11利用llama.cpp调用Qwen3.5量化模型测试
人工智能·llama·qwen
loong_XL24 天前
qwen3.5 文字、图像、视频多模态openai接口案例
音视频·qwen·多模态大模型
重生之我要成为代码大佬25 天前
AI框架设计与选型
人工智能·langchain·大模型·llama·qwen