【ML】pre-train model 是什么如何微调它，如何预训练

- [0. 预训练模型（Pre-trained Model）](#0. 预训练模型（Pre-trained Model）)
- - [0.1 预训练模型的预训练过程](#0.1 预训练模型的预训练过程)
  - [0.2 如何微调预训练模型](#0.2 如何微调预训练模型)
  - [0.3 总结](#0.3 总结)
- [1. Contextualized word Embedding](#1. Contextualized word Embedding)
- [2. 怎么让 bert 模型变小](#2. 怎么让 bert 模型变小)
- [3. 如何微调模型](#3. 如何微调模型)

0. 预训练模型（Pre-trained Model）

预训练模型（Pre-trained Model） 是在大型数据集上提前训练好的深度学习模型，这些模型在特定任务上已经具备了良好的通用特征表示能力。预训练模型通过大量数据的训练，捕捉了数据中的普遍模式，这些模式可以应用于多个不同的下游任务（如图像分类、自然语言处理等），从而减少在新任务上训练的时间和资源。

0.1 预训练模型的预训练过程

选择大规模数据集：
- 预训练通常使用非常大的数据集，这些数据集可以涵盖广泛的领域和多种类型的数据。例如，BERT模型在大规模文本语料库上预训练，ResNet等模型在ImageNet数据集上预训练。
设计模型架构：
- 选择适合的模型架构，例如BERT用于自然语言处理，ResNet用于图像处理。模型架构可以是卷积神经网络（CNN）、递归神经网络（RNN）、Transformer等。
无监督或自监督学习：
- 在预训练阶段，通常使用无监督或自监督学习方法。这意味着模型会在没有标注的情况下，通过任务如掩码语言模型（MLM）、自编码器等来学习数据的通用特征。
大量计算资源：
- 预训练往往需要强大的计算资源，通常使用高性能的GPU集群来处理大规模数据集的训练。
模型训练：
- 使用选择好的数据集和模型架构，在多个epoch上进行训练，通过调整模型参数来最小化损失函数，使模型能够学习到数据中的特征表示。

0.2 如何微调预训练模型

微调（Fine-tuning） 是在预训练模型的基础上，针对特定的下游任务进行再训练的过程。微调利用预训练模型已经学习到的特征，只需对模型进行轻量的调整，即可在新的任务上取得优异表现。

添加任务特定层：
- 在预训练模型的顶部添加一些新层，这些层通常是与特定任务相关的，如分类器（softmax层）或回归层。
冻结部分参数：
- 微调时，可以选择冻结预训练模型的部分参数，只训练新加入的任务特定层，这样可以避免过拟合并减少计算量。或者，可以对整个模型进行微调，但这需要更谨慎的训练。
调整学习率：
- 微调时通常会使用较低的学习率，这样可以避免对已经学习到的良好特征进行过大的调整，保留预训练模型的优势。
任务相关数据集训练：
- 使用与目标任务相关的小规模标注数据集对模型进行训练，微调模型参数，使其能够适应特定任务的要求。
评估与调整：
- 在微调过程中，通过验证集评估模型性能，并根据结果调整训练参数或模型架构，直到模型在目标任务上达到满意的表现。