SFT
SFT,监督微调 ,指在预训练模型的基础上 ,通过有标注的数据进行下一步训练,使其称为在特定任务上表现良好。
具体步骤:
- 预训练:在大量通用无标注的数据上进行训练
- 数据收集和标注:收集并且标注目标任务的数据
- 监督微调:在预训练模型基础上进一步在特定数据上进行训练,使其能够运用在特定任务上
- 模型评估:对训练模型进行评估
监督微调主流方法
全参数微调(Full Fine-Tunning)
原理:对预训练所有参数进行更新,使用标注数据直接优化目标
优点:效果最好
缺点:计算量庞大,可能过拟合小数据型
适用:计算资源充足,数据量大
参数高校微调(Parameter-Efficient Fine-Tunning)
原理:在预训练模型中,冻结大部分参数,只微调小部分参数进行更新。如:在Transformer模型中,只更新最后几层与输出有关的参数。
优点:计算量低,适合大模型
缺点:计算可能不够准确
经典方法:
- Adapter:在Transformer中插入小型神经网络
- LoRA:用低秩分解模拟参数更新(这个看论文才能比较好理解)。
- QLoRA:结合量化和LoRA
- Prompt Tunning:仅优化输入的软提示,冻结模型参数