2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

Paper:https://openreview.net/forum?id=lq62uWRJjiY

Code:https://github.com/QingruZhang/AdaLoRA

自适应计算分配,实现参数高效微调

为了实现动态地调节Lora的rank的大小,首先将Lora改写为SVD的形式。这是对LoRA的一种改进,它根据重要性评分动态分配参数预算给权重矩阵。

调整增量矩分配。AdaLoRA将关键的增量矩阵分配高秩以捕捉更精细和任务特定的信息,而将较不重要的矩阵的秩降低,以防止过拟合并节省计算预算。

以奇异值分解的形式对增量更新进行参数化,并根据重要性指标裁剪掉不重要的奇异值,同时保留奇异向量。由于对一个大矩阵进行精确SVD分解的计算消耗非常大,这种方法通过减少它们的参数预算来加速计算,同时,保留未来恢复的可能性并稳定训练。

W = W ( 0 ) + Δ = W ( 0 ) + P Λ Q W=W^{(0)}+\Delta=W^{(0)}+P \Lambda Q W=W(0)+Δ=W(0)+PΛQ

在训练损失中添加了额外的惩罚项,以规范奇异矩阵P和Q的正交性,从而避免SVD的大量计算并稳定训练。

相关推荐
java1234_小锋4 分钟前
Transformer 大语言模型(LLM)基石 - Transformer简介
深度学习·语言模型·llm·transformer·大语言模型
pengzhuofan5 分钟前
Java开发中的AI Prompt管理指南
java·开发语言·prompt
子午36 分钟前
【垃圾识别系统】Python+TensorFlow+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
shayudiandian1 小时前
用FastAPI部署深度学习模型
人工智能·深度学习·fastapi
JoannaJuanCV1 小时前
深度学习框架keras使用—(1)CNN经典模型:VGGNet
深度学习·cnn·keras
_oP_i1 小时前
常见、主流、可靠的机器学习与深度学习训练集网站
人工智能·深度学习·机器学习
natide1 小时前
RuntimeError: CUDA error: device-side assert triggered
pytorch·深度学习
IT·小灰灰2 小时前
Doubao-Seedream-4.5:当AI学会“版式设计思维“——设计师的七种新武器
javascript·网络·人工智能·python·深度学习·生成对抗网络·云计算
中杯可乐多加冰2 小时前
【解决方案】PASCAL VOC 、YOLO txt、COCO目标检测三大格式简述与PASCAL VOC COCO格式互转
深度学习·yolo·目标检测·计算机视觉·目标跟踪·视觉检测·coco