Qwen1/2/2.5/3 VL的图像处理与位置编码方式讲解

Qwen2 VL visual encoder

Qwen2 VL中在patch size的基础上还会通过MLP 做一个2*2的merge,进一步减小viusal token输,并加上start 和 end token。

注意:在Qwen2VL以及Qwen2.5/3VL中,单张图像都是视为2张同样的帧作为输入的,因此在通过image_processor时,一个patch的pixel shape是14*14*3(RGB)* 2(视为相同2帧)= 1176

M-RoPE: MultimodalRotaryPositionEmbedding

Qwen2 VL做2D grounding还是采取的类似Qwen1 VL的特殊token的表示形式:

Qwen1 VL visual encoder

Qwen1 VL的visual encoder 其实是一个Q -former的架构,通过256个可学习的token来表示图像,并且这个版本中还不支持视频输入。只支持输出2D normaliezd 的bbox。范围是归一化到[0,1000]的图像grid空间。表示方式是文本,并通过<ref> ,和<box>的方式指代物体和对应的box。

相关推荐
dawdo2227 天前
自己动手从头开始编写LLM推理引擎(9)-KV缓存实现和优化
缓存·llm·transformer·qwen·kv cache
阿尔的代码屋8 天前
[大模型实战 01] 本地大模型初体验:Ollama 部署与 Python 调用指南
qwen·modelscope·大模型实战·ollama·大模型部署
羊城迷鹿10 天前
从LoRA到OFT:Qwen2.5-VL在昇腾910B与4090上的多模态微调实践与踩坑记录
大模型·微调·多模态·qwen·llamafactory·oft
fjhcom22 天前
Qwen2.5-0.5B 模型微调与部署完整教程
微调·部署·qwen
core51223 天前
使用 `ms-swift` 微调 Qwen3-VL-2B 详细指南
lora·微调·swift·qwen·qwen3·vl
core51223 天前
Swift SFT Qwen-VL LoRA 微调指令详解
lora·微调·swift·qwen·vl
Aspect of twilight24 天前
QwenVL 模型输入细节
人工智能·qwen
刘金宝_Arvin24 天前
【Data Agent】数据分析智能体 初体验,可用的Chat BI -- 本地部署使用全流程
qwen·ollama·data agent
高性能服务器1 个月前
AGI-Next 闭门峰会深度纪要:中国AI的3小时深度思辨
agent·agi·qwen·智谱ai·agi-next闭门峰会·阿里千问·模型即产品
Harrytsz1 个月前
基于 AutoDL 平台搭建 vLLM Qwen 大模型推理服务
qwen·autodl·webui·vllm