论文略读:LoRA Learns Less and Forgets Less

202405 arxiv

1 主要思想

LORA相比于全参数训练,学的少,但忘的也少

2 实验分析

2.1 训练的表现

  • 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势

2.2 遗忘的表现

  • 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
  • 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少

3 论文的分析:Lora的正则化特性

  • LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
  • 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)
相关推荐
在猴站学算法1 小时前
机器学习(西瓜书) 第二章 模型评估与选择
人工智能·机器学习
科技宅说2 小时前
36氪专访丨乐橙CEO谢运:AI科技下的业务创新与长期主义下的品牌坚守
人工智能·科技
学术小八3 小时前
2025年人工智能、虚拟现实与交互设计国际学术会议
人工智能·交互·vr
仗剑_走天涯4 小时前
基于pytorch.nn模块实现线性模型
人工智能·pytorch·python·深度学习
cnbestec5 小时前
协作机器人UR7e与UR12e:轻量化设计与高负载能力助力“小而美”智造升级
人工智能·机器人·协作机器人·ur协作机器人·ur7e·ur12e
zskj_zhyl5 小时前
毫米波雷达守护银发安全:七彩喜跌倒检测仪重构居家养老防线
人工智能·安全·重构
gaosushexiangji6 小时前
利用sCMOS科学相机测量激光散射强度
大数据·人工智能·数码相机·计算机视觉
ai小鬼头7 小时前
AIStarter新版重磅来袭!永久订阅限时福利抢先看
人工智能·开源·github
说私域8 小时前
从品牌附庸到自我表达:定制开发开源AI智能名片S2B2C商城小程序赋能下的营销变革
人工智能·小程序
飞哥数智坊8 小时前
新版定价不够用,Cursor如何退回旧版定价
人工智能·cursor