论文略读:LoRA Learns Less and Forgets Less

202405 arxiv

1 主要思想

LORA相比于全参数训练,学的少,但忘的也少

2 实验分析

2.1 训练的表现

  • 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势

2.2 遗忘的表现

  • 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
  • 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少

3 论文的分析:Lora的正则化特性

  • LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
  • 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)
相关推荐
_codemonster几秒前
自然语言处理容易混淆知识点(七)模型架构 vs 使用方式
人工智能·自然语言处理
傻啦嘿哟几秒前
隧道代理在数据挖掘中的实战应用:从原理到落地的全流程解析
人工智能·数据挖掘
会飞的小新1 分钟前
从 LLM 到 ReACT Agent:推理与行动协同的智能体框架深度解析
人工智能·语言模型
无心水2 分钟前
【神经风格迁移:多风格】17、AIGC+风格迁移:用Stable Diffusion生成自定义风格
人工智能·机器学习·语言模型·stable diffusion·aigc·机器翻译·vgg
摸鱼仙人~2 分钟前
Bert系列之为什么选择chinese_roberta_wwm_ext
人工智能·深度学习·bert
Roxanne0073 分钟前
吴教授《AI for everyone》笔记梳理(DAY1)
人工智能·笔记
倔强的石头1067 分钟前
昇腾大模型量化实战:ModelSlim 工具上手与 W8A8 精度优化全流程解析
人工智能·机器学习
被遗忘的旋律.8 分钟前
TCP模型复现《Trajectory-guided Control Prediction for End-to-end Autonomous Driving》
深度学习·机器学习·自动驾驶
TMT星球10 分钟前
“智汇众力 共擎新元”,机器人租赁平台“擎天租”发布
大数据·人工智能·机器人
HUT_Tyne26511 分钟前
第2章 语言模型基础
人工智能·语言模型·自然语言处理