Qwen1/2/2.5/3 VL的图像处理与位置编码方式讲解

Qwen2 VL visual encoder

Qwen2 VL中在patch size的基础上还会通过MLP 做一个2*2的merge,进一步减小viusal token输,并加上start 和 end token。

注意:在Qwen2VL以及Qwen2.5/3VL中,单张图像都是视为2张同样的帧作为输入的,因此在通过image_processor时,一个patch的pixel shape是14*14*3(RGB)* 2(视为相同2帧)= 1176

M-RoPE: MultimodalRotaryPositionEmbedding

Qwen2 VL做2D grounding还是采取的类似Qwen1 VL的特殊token的表示形式:

Qwen1 VL visual encoder

Qwen1 VL的visual encoder 其实是一个Q -former的架构,通过256个可学习的token来表示图像,并且这个版本中还不支持视频输入。只支持输出2D normaliezd 的bbox。范围是归一化到[0,1000]的图像grid空间。表示方式是文本,并通过<ref> ,和<box>的方式指代物体和对应的box。

相关推荐
core5128 天前
【实战】使用 Unsloth 与 GRPO 微调 Qwen2.5 模型
微调·qwen·unsloth·grpo
core5128 天前
【实战】用 Unsloth 微调 Qwen2.5-VL 构建“汽车保险查勘” AI 专家
人工智能·微调·qwen·unsloth·vl
core51213 天前
基于 LangChain + 通义千问打造ReAct私募基金智能问答助手
ai·langchain·大模型·qwen·通义·千问·助手
缘友一世14 天前
使用peft进行qwen小模型微调实战
qwen·模型微调
core51216 天前
实战:使用 Qwen-Agent 调用自定义 MCP 服务
agent·qwen·mcp
core51224 天前
不借助框架实现Text2SQL
sql·mysql·ai·大模型·qwen·text2sql
core5121 个月前
LangChain实现Text2SQL
langchain·大模型·qwen·text2sql
武子康1 个月前
AI研究-129 Qwen2.5-Omni-7B 要点:显存、上下文、并发与成本
人工智能·深度学习·机器学习·ai·大模型·qwen·全模态
菠菠萝宝1 个月前
【Java手搓RAGFlow】-3- 用户认证与权限管理
java·开发语言·人工智能·llm·openai·qwen·rag