论文略读:LoRA Learns Less and Forgets Less

202405 arxiv

1 主要思想

LORA相比于全参数训练,学的少,但忘的也少

2 实验分析

2.1 训练的表现

  • 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势

2.2 遗忘的表现

  • 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
  • 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少

3 论文的分析:Lora的正则化特性

  • LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
  • 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)
相关推荐
yuyuyue24942 分钟前
lstm预测
人工智能·机器学习
纠结哥_Shrek1 小时前
pytorch实现循环神经网络
pytorch·rnn·深度学习
纠结哥_Shrek1 小时前
自然语言处理-词嵌入 (Word Embeddings)
人工智能·自然语言处理
Zfox_1 小时前
DeepSeek R1本地化部署 Ollama + Chatbox 打造最强 AI 工具
人工智能·ai·大模型教程·deepseek
CodeLinghu2 小时前
Agentic Automation:基于Agent的企业认知架构重构与数字化转型跃迁---我的AI经典战例
人工智能·重构·架构
银行数字化转型导师坚鹏2 小时前
数字化转型导师坚鹏:AI大模型DEEPSEEK重构人工智能格局的里程碑
人工智能·ai·重构·deepseek
X.AI6662 小时前
【大模型LLM面试合集】大语言模型架构_MHA_MQA_GQA
人工智能·语言模型·自然语言处理
智识世界Intelligence2 小时前
DeepSeek的崛起与全球科技市场的震荡
人工智能
弥树子3 小时前
使用 PyTorch 实现逻辑回归并评估模型性能
人工智能·pytorch·逻辑回归
power-辰南3 小时前
人工智能学习(四)之机器学习基本概念
人工智能·学习·机器学习