202405 arxiv
1 主要思想
LORA相比于全参数训练,学的少,但忘的也少
2 实验分析
2.1 训练的表现
- 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势
2.2 遗忘的表现
- 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
- 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少
3 论文的分析:Lora的正则化特性
- LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
- 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)