2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

Paper:https://openreview.net/forum?id=lq62uWRJjiY

Code:https://github.com/QingruZhang/AdaLoRA

自适应计算分配,实现参数高效微调

为了实现动态地调节Lora的rank的大小,首先将Lora改写为SVD的形式。这是对LoRA的一种改进,它根据重要性评分动态分配参数预算给权重矩阵。

调整增量矩分配。AdaLoRA将关键的增量矩阵分配高秩以捕捉更精细和任务特定的信息,而将较不重要的矩阵的秩降低,以防止过拟合并节省计算预算。

以奇异值分解的形式对增量更新进行参数化,并根据重要性指标裁剪掉不重要的奇异值,同时保留奇异向量。由于对一个大矩阵进行精确SVD分解的计算消耗非常大,这种方法通过减少它们的参数预算来加速计算,同时,保留未来恢复的可能性并稳定训练。

W = W ( 0 ) + Δ = W ( 0 ) + P Λ Q W=W^{(0)}+\Delta=W^{(0)}+P \Lambda Q W=W(0)+Δ=W(0)+PΛQ

在训练损失中添加了额外的惩罚项,以规范奇异矩阵P和Q的正交性,从而避免SVD的大量计算并稳定训练。

相关推荐
β添砖java1 天前
深度学习(12)Kaggle房价竞赛
人工智能·深度学习
逻辑驱动的ken1 天前
Java高频面试场景题25
java·开发语言·深度学习·面试·职场和发展
再玩一会儿看代码1 天前
如何理解神经网络中的权重参数?从一张图看懂模型参数量计算
人工智能·经验分享·python·深度学习·神经网络·机器学习
郝学胜-神的一滴1 天前
反向传播:神经网络的「灵魂」修炼法则
人工智能·pytorch·深度学习·神经网络·机器学习·数据挖掘
Chef_Chen1 天前
Agent的定义与Prompt重要性
prompt
绵满1 天前
“A Deep Probabilistic Model for Customer Lifetime Value Prediction” 论文笔记
深度学习·推荐系统
AGV算法笔记1 天前
目标检测论文精读:Deformable DETR 为什么被认为是 DETR 真正走向实用的关键一步?
人工智能·深度学习·目标检测·机器学习·计算机视觉·目标跟踪
model20051 天前
yolo26训练自己数据集
人工智能·深度学习
极光代码工作室1 天前
基于机器学习的商品价格预测系统
人工智能·深度学习·机器学习·ai·系统设计
古希腊掌管代码的神THU1 天前
【清华代码熊】DeepSeek V4多模态技术解析:以视觉基元思考
人工智能·深度学习·自然语言处理