Large-Vision-Language-Models-LVLMs--info:deepseek-vl模型

LVLMs-info: Deepseek-VL

  • deepseek-vl
    • paper: https://arxiv.org/abs/2403.05525, code: https://github.com/deepseek-ai/DeepSeek-VL
    • 模型基本结构:基本和Qwen-VL一样,三部分,a hybrid vision encoder, a vision adaptor, and a language model(LLM)
      • hybrid vision encoder
        • 使用SigLIP处理低分辨率的图像(384x384), SAM-B处理高分辨率图像(1024x1024),分别能够得到hxwxD的feature map
      • vision adaptor
        • 处理由hybrid vision encoder送过来的feature map
        • 具体来说,先将feature map上采用2倍并输入两层卷积,随后将feature map拉直,得到NxD维特征(类似token),在论文中每个feature map处理后都得到576x1024的token,最后将两种token在通道维度拼接得到576x2048的visual token
        • 最后使用一层GELU+MLP做embedding,作为LLM的输入
      • LLM
        • 使用DeepSeek LLM,包括1B和7B
    • 训练阶段:和Qwen-VL一样分为三个阶段训练
      • stage 1: Training VL Adaptor
        • 对vision adaptor进行训练,其他部分均frozen,相当于固定视觉和文本编码器,训练两者的融合模块。这里有一点可以关注,VLA的参数量很少,scaling law几乎无效,甚至会起到反作用,因此在这个阶段没有用很多数据进行调整
      • stage 2: Joint VL Pre-training
        • 对除了hybrid vision encoder外的所有参数进行调整,主要用来训练模型的多模态能力。在这个阶段需要谨慎的控制好用于训练的text-image和text数据的比率,否则会造成模型的language能力下降
      • stage 3: Supervised Finetuning
        • 全参数调整(但frozen SAM-B,显存限制)
    • 数据部分:通常的处理,划分为pretraining dataset和fine-tuning dataset
      • pretraining dataset主要由一些比较杂的数据构成(论文table 1),主要参与训练的stage1
      • fine-tuning dataset数据比较干净,包括LAION等,主要参与训练的stage3
      • 两者共同参与训练的stage2
    • 重要的点(个人)
      • 高质量图像数据(1024x1024), hybrid vision encoder
      • modality warm-up,逐步增加text-image数据,初始保持纯text数据在训练过程中占主导,防止模型language能力出现degradation问题
      • 论文中的性能对比上,基本能干过当时的开源LVLMs,但和GPT4-v有差距
相关推荐
RFdragon3 小时前
分享本周所学——三维重建算法3D Gaussian Splatting(3DGS)
人工智能·线性代数·算法·机器学习·计算机视觉·矩阵·paddlepaddle
星河耀银海3 小时前
3D效果:HTML5 WebGL结合AI实现智能3D场景渲染
前端·人工智能·深度学习·3d·html5·webgl
balmtv7 小时前
2026年多模态AI文件处理与联网搜索完全教程:国内镜像方案实测
人工智能
2501_926978337 小时前
AI的三次起落发展分析,及未来预测----理论5.0的应用
人工智能·经验分享·笔记·ai写作·agi
前网易架构师-高司机7 小时前
带标注的瓶盖识别数据集,识别率99.5%,可识别瓶盖,支持yolo,coco json,pascal voc xml格式
人工智能·yolo·数据集·瓶盖
软件供应链安全指南7 小时前
以AI治理AI|问境AIST首家通过信通院大模型安全扫描产品能力评估!
人工智能·安全·ai安全·问境aist·aist·智能体安全
_爱明7 小时前
CUDA索引越界问题(Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions)
人工智能·深度学习
这张生成的图像能检测吗7 小时前
(论文速读)TCN:序列建模不一定需要 RNN
人工智能·深度学习·transformer·卷积·时序预测
大师影视解说8 小时前
基于Web端的AI电影解说自动化生产工具实测:4步完成从文案到成片的全流程
运维·人工智能·自动化·影视解说·电影解说工具·网页版电影解说·ai电影解说
是大强8 小时前
GaN器件
人工智能·神经网络·生成对抗网络