预训练微调类型分类

预训练与微调

1. 预训练

• 目标：通过大规模数据训练模型，学习通用表示能力。

• 方法：

• 自监督学习（如BERT、GPT）

• 多模态预训练（如CLIP、DALL·E）

2. 微调

微调是在预训练模型基础上，针对特定任务或领域进行优化。主要分为以下几类：

2.1 多模态模型微调

• 目标：适配多模态任务（如图文生成、视觉问答）。

• 方法：

• 跨模态对齐微调

• 多模态联合训练

2.2 文本模型微调

• 目标：优化文本相关任务（如文本生成、分类）。

• 方法：

• 监督微调

• 无监督/自监督微调

2.3 监督微调

• 目标：使用标注数据优化特定任务。

• 细分：

• 指令微调 ：通过指令-输出对增强泛化能力。

• 对话微调 ：优化对话生成和上下文理解。

• 领域适配 ：将模型适配到特定领域（如医疗、法律）。

• 文本分类：优化文本分类任务（如情感分析、主题分类）。

2.4 无监督/自监督微调

• 目标：利用未标注数据提升模型性能。

• 方法：

• 掩码语言模型（如BERT）

• 对比学习（如SimCSE）

2.5 强化学习微调

• 目标：通过奖励机制优化模型输出。

• 方法：

• 人类反馈强化学习（RLHF）

• 直接偏好优化（DPO）

2.6 特殊的微调

• 目标：针对特定需求或场景进行优化。

• 方法：

• 知识蒸馏：将大模型知识迁移到小模型。

• 增量学习：逐步适配新任务或数据。

3. 知识终端

• 目标：将外部知识整合到模型中。

• 方法：

• 知识图谱嵌入

• 检索增强生成（RAG）

思维导图结构示例

复制代码

预训练
├── 多模态模型微调
│   ├── 跨模态对齐微调
│   └── 多模态联合训练
├── 文本模型微调
│   ├── 监督微调
│   │   ├── 指令微调
│   │   ├── 对话微调
│   │   ├── 领域适配
│   │   └── 文本分类
│   ├── 无监督/自监督微调
│   │   ├── 掩码语言模型
│   │   └── 对比学习
│   └── 强化学习微调
│       ├── 人类反馈强化学习（RLHF）
│       └── 直接偏好优化（DPO）
├── 特殊的微调
│   ├── 知识蒸馏
│   └── 增量学习
└── 知识终端
    ├── 知识图谱嵌入
    └── 检索增强生成（RAG）