Qwen1/2/2.5/3 VL的图像处理与位置编码方式讲解

Qwen2 VL visual encoder

Qwen2 VL中在patch size的基础上还会通过MLP 做一个2*2的merge,进一步减小viusal token输,并加上start 和 end token。

注意:在Qwen2VL以及Qwen2.5/3VL中,单张图像都是视为2张同样的帧作为输入的,因此在通过image_processor时,一个patch的pixel shape是14*14*3(RGB)* 2(视为相同2帧)= 1176

M-RoPE: MultimodalRotaryPositionEmbedding

Qwen2 VL做2D grounding还是采取的类似Qwen1 VL的特殊token的表示形式:

Qwen1 VL visual encoder

Qwen1 VL的visual encoder 其实是一个Q -former的架构,通过256个可学习的token来表示图像,并且这个版本中还不支持视频输入。只支持输出2D normaliezd 的bbox。范围是归一化到[0,1000]的图像grid空间。表示方式是文本,并通过<ref> ,和<box>的方式指代物体和对应的box。

相关推荐
Harrytsz2 天前
基于 AutoDL 平台搭建 vLLM Qwen 大模型推理服务
qwen·autodl·webui·vllm
Java后端的Ai之路4 天前
【大模型技术栈】-Qwen与DeepSeek如何构建智能大脑?
大模型·qwen·deepseek
是Yu欸10 天前
vLLM 0.11.0 新特性解析:视觉推理精度跃升与长序列性能革新
数据库·qwen·昇腾·npu·vllm
是Yu欸12 天前
在昇腾8卡上极限部署 Qwen3-235B MoE
部署·qwen·昇腾·npu·ascend·vllm·多节点
技术路上的探险家15 天前
vLLM常用启动参数的详细解释
python·大模型·qwen·vllm
倔强的石头10615 天前
昇腾NPU实战:国产之光Qwen2.5-7B-Instruct在AtomGit环境下的硬核部署与稳定性测评
qwen·昇腾
何如千泷18 天前
Qwen2.5-VL模型架构解读——模型部分
qwen·qwen-vl
weixin_4093831218 天前
强化lora训练 这次好点 下次在训练数据增加正常对话
人工智能·深度学习·机器学习·qwen
Robot侠19 天前
从 Python 到 Ollama:将微调后的 Llama-3/Qwen 一键导出为 GGUF
开发语言·python·llama·qwen
Robot侠19 天前
给自己做一个 ChatGPT:基于 Gradio 的本地 LLM 网页对话界面
人工智能·chatgpt·llm·llama·qwen·gradio