论文略读:LoRA Learns Less and Forgets Less

202405 arxiv

1 主要思想

LORA相比于全参数训练,学的少,但忘的也少

2 实验分析

2.1 训练的表现

  • 在编程和数学任务中,LoRA相比全参数微调表现出明显的劣势

2.2 遗忘的表现

  • 这边的遗忘,是指在数据集A上预训练,然后在数据集B上继续finetune,看在数据集A上的表现
  • 相比全参数微调,LoRA学会的东西较少,但遗忘也相对更少

3 论文的分析:Lora的正则化特性

  • LoRA提供了比经典正则化技术,如权重衰减和dropout,更强的正则化效果。
  • 在下游任务上LoRA的表现低于大多数正则化方法(左图);在遗忘上LoRA优于所有正则化方法(右图)
相关推荐
kooboo china.8 分钟前
Tailwind CSS 实战:基于 Kooboo 构建 AI 对话框页面(八):异步处理逻辑详解
前端·css·人工智能·编辑器·html·交互
newxtc21 分钟前
【JJ斗地主-注册安全分析报告】
开发语言·javascript·人工智能·安全
黑码哥27 分钟前
Copilot for Xcode (iOS的 AI辅助编程)
人工智能·copilot·ai编程·xcode·ai辅助编程
深科文库28 分钟前
构建 MCP 服务器:第 2 部分 — 使用资源模板扩展资源
人工智能·chatgpt·llama
程序猿小D30 分钟前
第22节 Node.js JXcore 打包
开发语言·人工智能·vscode·node.js·c#
ykjhr_3d1 小时前
AI 导游:开启智能旅游新时代
人工智能·旅游
jndingxin1 小时前
OpenCV CUDA模块光流计算-----实现Farneback光流算法的类cv::cuda::FarnebackOpticalFlow
人工智能·opencv·算法
marteker1 小时前
HubSpot推出与ChatGPT的深度集成引发兴奋与担忧
人工智能
码上地球2 小时前
卷积神经网络设计指南:从理论到实践的经验总结
人工智能·深度学习·cnn
余+185381628002 小时前
短视频矩阵系统文案创作功能开发实践,定制化开发
大数据·人工智能