论文略读：LoRA Learns Less and Forgets Less

UQI-LIUWJ2024-07-20 0:06

202405 arxiv

1 主要思想

LORA相比于全参数训练，学的少，但忘的也少

2 实验分析

2.1 训练的表现

在编程和数学任务中，LoRA相比全参数微调表现出明显的劣势

2.2 遗忘的表现

这边的遗忘，是指在数据集A上预训练，然后在数据集B上继续finetune，看在数据集A上的表现
相比全参数微调，LoRA学会的东西较少，但遗忘也相对更少

3 论文的分析：Lora的正则化特性

LoRA提供了比经典正则化技术，如权重衰减和dropout，更强的正则化效果。
在下游任务上LoRA的表现低于大多数正则化方法（左图）；在遗忘上LoRA优于所有正则化方法（右图）

上一篇：前端面试题日常练-day92 【Less】

下一篇：深入解析：`cat` 与 `less` 命令在文件查看中的应用与对比

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04GitLab 零基础入门指南：从安装到项目管理全流程 05Linux下V2Ray安装配置指南 06NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 07一文了解国产算子编程语言 TileLang，TileLang 对国产开源生态的影响与启示 08在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）092025软件测试面试八股文（含答案+文档）10XXE 注入漏洞全解析：从原理到实战