2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

Paper:https://openreview.net/forum?id=lq62uWRJjiY

Code:https://github.com/QingruZhang/AdaLoRA

自适应计算分配,实现参数高效微调

为了实现动态地调节Lora的rank的大小,首先将Lora改写为SVD的形式。这是对LoRA的一种改进,它根据重要性评分动态分配参数预算给权重矩阵。

调整增量矩分配。AdaLoRA将关键的增量矩阵分配高秩以捕捉更精细和任务特定的信息,而将较不重要的矩阵的秩降低,以防止过拟合并节省计算预算。

以奇异值分解的形式对增量更新进行参数化,并根据重要性指标裁剪掉不重要的奇异值,同时保留奇异向量。由于对一个大矩阵进行精确SVD分解的计算消耗非常大,这种方法通过减少它们的参数预算来加速计算,同时,保留未来恢复的可能性并稳定训练。

W = W ( 0 ) + Δ = W ( 0 ) + P Λ Q W=W^{(0)}+\Delta=W^{(0)}+P \Lambda Q W=W(0)+Δ=W(0)+PΛQ

在训练损失中添加了额外的惩罚项,以规范奇异矩阵P和Q的正交性,从而避免SVD的大量计算并稳定训练。

相关推荐
霖大侠10 分钟前
VISION TRANSFORMER ADAPTER FOR DENSE PREDICTIONS
人工智能·深度学习·transformer
非著名架构师29 分钟前
破解“AI幻觉”,锁定真实风险:专业气象模型如何为企业提供可信的极端天气决策依据?
人工智能·深度学习·机器学习·数据分析·风光功率预测·高精度气象数据·高精度天气预报数据
忆~遂愿35 分钟前
昇腾 Triton-Ascend 开源实战:架构解析、环境搭建与配置速查
人工智能·python·深度学习·机器学习·自然语言处理
高洁0144 分钟前
向量数据库拥抱大模型
python·深度学习·算法·机器学习·transformer
小龙报1 小时前
【算法通关指南:算法基础篇(四)】二维差分专题:1.【模板】差分 2.地毯
c语言·数据结构·c++·深度学习·神经网络·算法·自然语言处理
Hello娃的1 小时前
【神经网络】构成单元、网络结构、训练过程
深度学习·神经网络·机器学习
wzx_Eleven1 小时前
【论文阅读】多密钥低通信轮次的联邦学习安全聚合
论文阅读·深度学习·神经网络·安全·同态加密
做cv的小昊2 小时前
VLM相关论文阅读:【LoRA】Low-rank Adaptation of Large Language Models
论文阅读·人工智能·深度学习·计算机视觉·语言模型·自然语言处理·transformer
nwsuaf_huasir2 小时前
深度学习1.4-pytorch安装
人工智能·pytorch·深度学习
AI即插即用2 小时前
即插即用系列 | CVPR 2024 FADC:频域自适应空洞卷积,完美解决语义分割“网格效应”
图像处理·人工智能·深度学习·目标检测·计算机视觉·视觉检测