论文略读:LoRA Learns Less and Forgets Less

202405 arxiv

1 主要思想

LORA相比于全参数训练,学的少,但忘的也少

2 实验分析

2.1 训练的表现

  • 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势

2.2 遗忘的表现

  • 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
  • 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少

3 论文的分析:Lora的正则化特性

  • LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
  • 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)
相关推荐
charles_vaez17 分钟前
开源模型应用落地-glm模型小试-glm-4-9b-chat-快速体验(一)
深度学习·语言模型·自然语言处理
北京搜维尔科技有限公司35 分钟前
搜维尔科技:【应用】Xsens在荷兰车辆管理局人体工程学评估中的应用
人工智能·安全
说私域38 分钟前
基于开源 AI 智能名片 S2B2C 商城小程序的视频号交易小程序优化研究
人工智能·小程序·零售
YRr YRr38 分钟前
深度学习:Transformer Decoder详解
人工智能·深度学习·transformer
知来者逆43 分钟前
研究大语言模型在心理保健智能顾问的有效性和挑战
人工智能·神经网络·机器学习·语言模型·自然语言处理
Shy9604181 小时前
Bert完形填空
python·深度学习·bert
云起无垠1 小时前
技术分享 | 大语言模型赋能软件测试:开启智能软件安全新时代
人工智能·安全·语言模型
老艾的AI世界1 小时前
新一代AI换脸更自然,DeepLiveCam下载介绍(可直播)
图像处理·人工智能·深度学习·神经网络·目标检测·机器学习·ai换脸·视频换脸·直播换脸·图片换脸
翔云API2 小时前
PHP静默活体识别API接口应用场景与集成方案
人工智能
浊酒南街2 小时前
吴恩达深度学习笔记:卷积神经网络(Foundations of Convolutional Neural Networks)4.9-4.10
人工智能·深度学习·神经网络·cnn