论文略读:LoRA Learns Less and Forgets Less

202405 arxiv

1 主要思想

LORA相比于全参数训练,学的少,但忘的也少

2 实验分析

2.1 训练的表现

  • 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势

2.2 遗忘的表现

  • 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
  • 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少

3 论文的分析:Lora的正则化特性

  • LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
  • 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)
相关推荐
币之互联万物几秒前
好用的推理训练引擎:博云AIOS如何重塑企业AI算力底座
大数据·人工智能
视***间2 分钟前
算力下沉,智赋全域——解析当前AI边缘计算形势及视程空间的使命与征程
人工智能·边缘计算·ai算力·视程空间·终端算力
IT_陈寒3 分钟前
SpringBoot自动配置的坑,我把头发都快薅没了
前端·人工智能·后端
supericeice3 分钟前
建筑行业大模型落地提速,知识图谱方案为何受到关注
人工智能·知识图谱
小橙子学AI4 分钟前
OpenClaw 定时任务与提醒:打造你的 AI 自动化工作流
运维·人工智能·自动化
360智汇云5 分钟前
360智汇云标注平台介绍及项目落地经验
人工智能
chimooing5 分钟前
OpenClaw 技术详解:自托管 AI 网关架构与实战应用
人工智能·架构
纠结哥_Shrek7 分钟前
AI视频生成提示词工程完全指南
人工智能·音视频
从零开始学习人工智能8 分钟前
从PDF到智能问答:RAG-Anything多模态银行文档处理实战解析
大数据·人工智能·pdf
前端不太难8 分钟前
AI + 鸿蒙游戏,会不会是下一个爆点?
人工智能·游戏·harmonyos