【论文阅读】Deepseek-VL:走向现实世界的视觉语言理解

【论文阅读】Deepseek-VL:走向现实世界的视觉语言理解

文章目录

发展过程 deepSeek LLM-MOE-Math-V2-V3-R1

在学习前,我们需要先了解MOE所带来的意义

MOE

混合专家模型 (MoE) 的引入使得训练具有数千亿甚至万亿参数的模型成为可能

简单来说 就是将原有的FFN结构来进行替换为多个FFN(专家),他们之间的权重值是不同的

GShard 将在编码器和解码器中的每个前馈网络 (FFN) 层中的替换为使用 Top-2 门控的混合专家模型 (MoE) 层

专家容量是 MoE 中最重要的概念之一 。为什么需要专家容量呢?因为所有张量的形状在编译时是静态确定的,无法提前知道多少Token会分配给每个专家,因此需要一个固定的容量因子。

专家学习特点

ST-MoE 的研究者们发现,编码器中不同的专家倾向于专注于特定类型的Token或浅层概念

特性:

  1. 某些专家可能专门处理标点符
  2. 而其他专家则专注于专有名词等
  3. 解码器中的专家通常具有较低的专业化程度

我们预计使用deepseek v2模型 MOE具体参数如下

python 复制代码
{
  // 部分参数省略
  "hidden_act": "silu",
  "hidden_size": 5120,
  "initializer_range": 0.02,
  "intermediate_size": 12288,
  "model_type": "deepseek_v2",
  "moe_intermediate_size": 1536,
  "moe_layer_freq": 1,
  "n_group": 8,
  "n_routed_experts": 160,
  "n_shared_experts": 2,
  "norm_topk_prob": false,
  "num_experts_per_tok": 6,
  "num_hidden_layers": 60,
  "num_key_value_heads": 128,
  "topk_group": 3,
  "topk_method": "group_limited_greedy",
}

专家其实就是参数量更少的 FFN/MLP 结构,和 llama 中结构一样,只是参数量和计算量更少了

Deepseek-VL

关键方面构建:

  • Data Construction
  • Model Architecture
  • Training Strategy

我们在开发模型时追求在真实世界场景中的熟练性能,包括广泛的预训练,基于用例分类的仔细数据策展,高分辨率处理的模型架构设计,以及一个平衡多模态的训练策略

可以引导模型从1B扩展到7B

体现了deepseek-VL的多种理解和处理能力

混合方法有效地将1024×1024分辨率的图像(在大多数用例中已经足够)压缩为576个token

Data Construction:

  • 视觉语言预训练数据
  • 视觉语言监督微调数据

完整数据集的详细分类,分为以下几类:

  • 交错的图像
  • 表格和图表数据
  • Web Code数据
  • 文档光学字符识别(OCR)数据
  • Text-only corpus

系统包含三个模块:

  • 一个混合视觉编码器
  • 一个视觉适配器
  • 一个语言模型

混合视觉编码器

采用SigLIP作为视觉编码器,从视觉输入中提取高级语义特征表示

CLIP系列模型受到其相对低分辨率输入的限制

妨碍了他们处理需要更详细的低级功能

混合视觉编码器结合了SAM-B和SigLIP-L编码器,高效地编码高分辨率1024 x 1024图像,同时保留语义和详细信息

这些视觉令牌具有增强高级语义视觉识别和低级语义视觉识别的巨大能力水平的视觉基础任务

视觉语言适配器

两层混合MLP来桥接视觉编码器和LLM

不同的单层MLP分别用于处理高分辨率特征和低分辨率特征。随后,这些特征沿其维度沿着,然后通过另一层MLP转换到LLM的输入空间。

语言模型

语言模型建立在DeepSeek LLM

一系列DeepSeek-VL模型。鉴于目标是使用多模态和语言进行联合预训练,从DeepSeek的预训练模型中选择一个中间检查点继续预训练

训练阶段

我们在三个连续的阶段训练我们的DeepSeek-VL:

  • 视觉语言Adaptor预热
  • 联合视觉语言预训练
  • 监督微调

Stage 1: Training Vision-Language Adaptor

这一阶段的主要目标是在嵌入空间内建立视觉和语言元素之间的概念联系,从而促进通过大语言模型(LLM)对图像中所描绘的实体的全面理解。

其中视觉编码器和LLM在此阶段保持冻结,同时只允许视觉语言适配器内的可训练参数

利用包括从ShareGPT 4V获得的125万个图像-文本配对字幕的数据集,沿着250万个文档OCR渲染对来训练VL适配器

Stage 2: Joint Vision-Language pretraining

理解多模态输入。我们保持视觉编码器冻结,并优化语言模型和VL适配器。

设计了一种简单而有效的联合语言-多模态训练策略。在训练过程中,我们不仅进行多模态数据训练,还将大部分语言数据纳入训练。

尝试找出最优的多模态和语言比例 最后固定在了7:3

Stage 3: Supervised Fine-tuning

使用基于警告的微调来微调预训练的DeepSeek-VL模型

超参数与超结构

使用HAI-LLM训练和评估我们的DeepSeek-VL

DeepSeek-LLM中的重叠计算和通信(DeepSeek-AI,2024). DeepSeek-VL 7 B在64个节点的集群上消耗了5天,每个节点包括8个Nvidia A100 GPU,而DeepSeek-VL-1B在涉及16个节点的设置上花费了7天

DeepSeek-VL致力于实现在应对这些挑战的同时最大限度地减少语言能力下降的目标

相关推荐
Vizio<8 小时前
《基于物理仿真和学习潜投影的机器人触觉感知模拟到真实》ICRA2021论文解读
论文阅读·人工智能·学习·机器人·触觉传感器
DuHz9 小时前
Phi-3 技术报告:手机本地运行的高能力语言模型——论文阅读
论文阅读·人工智能·语言模型·自然语言处理·智能手机
平和男人杨争争12 小时前
情绪识别论文阅读——Eyemotion
论文阅读
DuHz13 小时前
Stable Video Diffusion:将潜在视频扩散模型扩展到大规模数据集——论文阅读
论文阅读·人工智能·深度学习·神经网络·算法·音视频
STLearner13 小时前
AI论文速读 | 当大语言模型遇上时间序列:大语言模型能否执行多步时间序列推理与推断
大数据·论文阅读·人工智能·深度学习·机器学习·语言模型·自然语言处理
有Li20 小时前
基于神经控制微分方程的采集无关深度学习用于定量MRI参数估计|文献速递-文献分享
论文阅读·人工智能·文献·医学生
神气龙1 天前
项目实战:RAG论文阅读助理系统性能测试
论文阅读
bylander1 天前
【论文阅读】A Survey of Reinforcement Learning for Large Reasoning Models
论文阅读·大模型·llm·强化学习
Sugar_pp1 天前
【论文阅读】Railway rutting defects detection based on improved RT‑DETR
论文阅读·深度学习·目标检测·transformer
七元权2 天前
论文阅读-Adaptive Multi-Modal Cross-Entropy Loss for Stereo Matching
论文阅读·深度学习·计算机视觉·损失函数·双目深度估计