论文略读:LoRA Learns Less and Forgets Less

202405 arxiv

1 主要思想

LORA相比于全参数训练,学的少,但忘的也少

2 实验分析

2.1 训练的表现

  • 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势

2.2 遗忘的表现

  • 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
  • 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少

3 论文的分析:Lora的正则化特性

  • LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
  • 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)
相关推荐
I_ltt_Itw,1 分钟前
深度学习优化器与优化方法
人工智能
机器学习之心1 分钟前
SSA-TCN-Transformer组合模型回归+SHAP分析+新数据预测+多输出!深度学习可解释分析
深度学习·回归·transformer·shap分析
Yeats_Liao2 分钟前
模型选型指南:7B、67B与MoE架构的业务适用性对比
前端·人工智能·神经网络·机器学习·架构·deep learning
sali-tec3 分钟前
C# 基于OpenCv的视觉工作流-章10-中值滤波
图像处理·人工智能·opencv·算法·计算机视觉
百***24376 分钟前
GLM-4.7底层技术拆解与落地避坑:开源大模型编码实战指南
人工智能·gpt·开源
予枫的编程笔记7 分钟前
【Spring Security】Spring Boot 与 Spring Security 核心版本的对应表
人工智能
星浩AI10 分钟前
从0到1:用LlamaIndex工作流构建Text-to-SQL应用完整指南
人工智能·后端·python
Elastic 中国社区官方博客11 分钟前
Elasticsearch:Jina Reader
大数据·人工智能·elasticsearch·搜索引擎·ai·全文检索·jina
TAICHIFEI16 分钟前
Hugging Face 的 Transformers库
人工智能·深度学习·学习·自然语言处理
雍凉明月夜16 分钟前
深度学习之目标检测yolo算法Ⅰ(v1-v3)
深度学习·算法·yolo·目标检测