Qwen2.5-VL研究_待完善...

Qwen-2.5VL模型架构:

  1. Qwen2.5 LM Decoder: 主要以 Qwen2.5 LLM 为基础
  2. Vison Encoder: 重新设计的ViT -> 引入了 2D-ROPE 和 Window Attention 以支持原生分辨率输入并加速计算。在训练和推理时,输入图像的高度和宽度会被调整为 28 的倍数,然后通过 14 步幅的 Patch 分割来生成图像特征。
  3. 基于 MLP 的视觉-语言融合模块 :通过将空间上相邻的四个 Patch 特征进行分组,然后通过两层 MLP 将其投影到与 LLM 文本嵌入对齐的维度,实现特征序列的压缩

执行流程:实际推理时,往往会将文本和图像一起输入给Qwen-VL,并分开处理视觉和文本信息

ps:现在大模型的架构都放在Hugging Face Transformers库中,而不是在GitHub仓库中显式构建,这是现代深度学习模型的标准实践

  • 视觉信息处理:
    • Patch 分割:模型支持原生分辨率输入,图像首先被分割成 14x14 像素的 Patch块,会被一个线性投影层(通常是一个卷积核大小为 14x14、步长为 14 的卷积层)展平并映射为一个一维向量
    • MROPE :模型采用了 2D Rotary Positional Embedding
    • 在进行窗口注意力之前,batch, N, hidden_dim 必须先被"重新整形"(Reshape),把这个 1D 序列还原成它在 2D 图像上的空间结构,即 batch, H_patches, W_patches, hidden_dim
    • Window Attention (窗口注意力机制):核心思想是将输入的特征图(或 Patch 序列)划分为若干个不重叠的局部窗口 (local windows)。然后,自注意力机制只在每个独立的窗口内部进行计算。模型需要把这个 H_patches 和 W_patches 的网格,进一步划分成一个个 8x8 的小窗口 -> batch*H_patches*W_patches/64, 64, hidden_dim自注意力在这个小空间中进行
  • 文本信息处理:这部分由 Qwen2.5 系列的 Large Language Model (LLM)(大型语言模型)负责
  • Tokenizer+Embedding bsz, seq_len, hidden_dim
  • 融合模块:MLP-based Vison-Language Merger 模块对齐和融合
    • 由于Vision Encoder 输出的原始视觉 Patch 特征序列可能很长,假设Vision Encoder 的输出为batch, H_patches, W_patches, hidden_dim_vision
    • 关键操作------"相邻的四组 Patch 特征进行分组" -> batch, H_patches/2, W_patches/2, 2, 2, hidden_dim_vision -> 特征拼接 batch, H_patches/2, W_patches/2, 4 \* hidden_dim_vision
    • 模态对齐--MLP投影:可以看到现在维度和形状都不匹配,先将2D 网格展平成序列 batch, N_visual_tokens, 4 \* hidden_dim_vision 然后通过两层MLP(5120, intermediate_dim+intermediate_dim, 2048)输出 -> batch, N_visual_tokens, hidden_dim_llm
    • 最终将两个序列在 seq_len 维度上拼接
    • Visual Tokens: batch, N_vis, H_llm
    • Text Tokens: batch, N_txt, H_llm
相关推荐
问心无愧05134 小时前
ctf show web入门111
android·前端·笔记
程序员cxuan4 小时前
为每个任务配一套 harness:Claude Code 里的动态工作流
人工智能
程序员cxuan4 小时前
Claude Fable 5 来了
人工智能·后端·程序员
云边云科技_云网融合4 小时前
云边云科技亮相 2026 WOD 制造业数智化博览会 云网融合赋能制造焕新
人工智能·科技·安全·制造
Σίσυφος19005 小时前
激光三角 光平面标定-多高度误差分析
人工智能·计算机视觉·平面
JS菌5 小时前
手写一个 AI Agent 全栈项目:从沙箱执行到子智能体的完整实现
前端·人工智能·后端
lqqjuly5 小时前
前沿算法深度解析(二)
人工智能·算法·机器学习
Bode_20025 小时前
基于大数据分析的全生命周期质量追溯质量评估体系落地方案
大数据·人工智能
分布式存储与RustFS5 小时前
RustFS S3 Table 开源后,我重新梳理了一下 Iceberg 数据湖的选型思路
人工智能·开源·minio·dpu·rustfs·ai存储·s3 table
小宋加油啊5 小时前
学习机械臂相关知识
学习