预训练与微调
1. 预训练
• 目标 :通过大规模数据训练模型,学习通用表示能力。
• 方法 :
• 自监督学习(如BERT、GPT)
• 多模态预训练(如CLIP、DALL·E)
2. 微调
微调是在预训练模型基础上,针对特定任务或领域进行优化。主要分为以下几类:
2.1 多模态模型微调
• 目标 :适配多模态任务(如图文生成、视觉问答)。
• 方法 :
• 跨模态对齐微调
• 多模态联合训练
2.2 文本模型微调
• 目标 :优化文本相关任务(如文本生成、分类)。
• 方法 :
• 监督微调
• 无监督/自监督微调
2.3 监督微调
• 目标 :使用标注数据优化特定任务。
• 细分 :
• 指令微调 :通过指令-输出对增强泛化能力。
• 对话微调 :优化对话生成和上下文理解。
• 领域适配 :将模型适配到特定领域(如医疗、法律)。
• 文本分类:优化文本分类任务(如情感分析、主题分类)。
2.4 无监督/自监督微调
• 目标 :利用未标注数据提升模型性能。
• 方法 :
• 掩码语言模型(如BERT)
• 对比学习(如SimCSE)
2.5 强化学习微调
• 目标 :通过奖励机制优化模型输出。
• 方法 :
• 人类反馈强化学习(RLHF)
• 直接偏好优化(DPO)
2.6 特殊的微调
• 目标 :针对特定需求或场景进行优化。
• 方法 :
• 知识蒸馏:将大模型知识迁移到小模型。
• 增量学习:逐步适配新任务或数据。
3. 知识终端
• 目标 :将外部知识整合到模型中。
• 方法 :
• 知识图谱嵌入
• 检索增强生成(RAG)
思维导图结构示例
预训练
├── 多模态模型微调
│ ├── 跨模态对齐微调
│ └── 多模态联合训练
├── 文本模型微调
│ ├── 监督微调
│ │ ├── 指令微调
│ │ ├── 对话微调
│ │ ├── 领域适配
│ │ └── 文本分类
│ ├── 无监督/自监督微调
│ │ ├── 掩码语言模型
│ │ └── 对比学习
│ └── 强化学习微调
│ ├── 人类反馈强化学习(RLHF)
│ └── 直接偏好优化(DPO)
├── 特殊的微调
│ ├── 知识蒸馏
│ └── 增量学习
└── 知识终端
├── 知识图谱嵌入
└── 检索增强生成(RAG)
