论文略读:LoRA Learns Less and Forgets Less

202405 arxiv

1 主要思想

LORA相比于全参数训练,学的少,但忘的也少

2 实验分析

2.1 训练的表现

  • 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势

2.2 遗忘的表现

  • 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
  • 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少

3 论文的分析:Lora的正则化特性

  • LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
  • 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)
相关推荐
珂朵莉MM1 小时前
第七届全球校园人工智能算法精英大赛-算法巅峰赛产业命题赛第3赛季优化题--启发式算法+操作因子设计
人工智能·算法
Smoothcloud润云1 小时前
从“预测下一个词”到“预测下一个世界状态”:世界模型作为AGI新范式的深度分析报告
人工智能·测试工具·微服务·容器·github·状态模式·agi
Magic-Yuan1 小时前
用好AI的五个习惯
人工智能
石工记1 小时前
AI 应用开发新范式 MCP
人工智能
360亿方智能1 小时前
行业领先!360AI多模态知识库深度集成前沿技术,精准对齐图、文、视跨模态知识
人工智能
CareyWYR2 小时前
LLM 时代,程序员的"懒惰"美德正在消亡?
人工智能
IT_陈寒2 小时前
折腾一天才明白:Vite的热更新为什么偶尔会罢工
前端·人工智能·后端
AI创界者2 小时前
Ace-Step-1.5-XL-Turbo ai歌曲生成一键整合包,解压即用!支持高保真长音频,AI音乐制作进入2.0时代
人工智能·音视频
undsky_2 小时前
豆豆AI画布 - “动漫分身”视频制作
人工智能
阿里云大数据AI技术2 小时前
打造多模态数据基石:阿里云PAI赋能海量多模态数据高效处理
人工智能