2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

Paper:https://openreview.net/forum?id=lq62uWRJjiY

Code:https://github.com/QingruZhang/AdaLoRA

自适应计算分配,实现参数高效微调

为了实现动态地调节Lora的rank的大小,首先将Lora改写为SVD的形式。这是对LoRA的一种改进,它根据重要性评分动态分配参数预算给权重矩阵。

调整增量矩分配。AdaLoRA将关键的增量矩阵分配高秩以捕捉更精细和任务特定的信息,而将较不重要的矩阵的秩降低,以防止过拟合并节省计算预算。

以奇异值分解的形式对增量更新进行参数化,并根据重要性指标裁剪掉不重要的奇异值,同时保留奇异向量。由于对一个大矩阵进行精确SVD分解的计算消耗非常大,这种方法通过减少它们的参数预算来加速计算,同时,保留未来恢复的可能性并稳定训练。

W = W ( 0 ) + Δ = W ( 0 ) + P Λ Q W=W^{(0)}+\Delta=W^{(0)}+P \Lambda Q W=W(0)+Δ=W(0)+PΛQ

在训练损失中添加了额外的惩罚项,以规范奇异矩阵P和Q的正交性,从而避免SVD的大量计算并稳定训练。

相关推荐
有Li8 分钟前
CIA-net:用于多模态MRI卵巢肿瘤分割的跨模态交互与聚合网络/文献速递-大模型与图像分割在医疗影像中应用
论文阅读·人工智能·深度学习·计算机视觉·文献
WeeJot嵌入式14 分钟前
ICLR 2026低秩Transformer解决方案:多变量时间序列异常检测与定位的数学原理
人工智能·深度学习·transformer
工业甲酰苯胺2 小时前
制造业数字化转型:低代码核心系统技术解析与落地实践
人工智能·深度学习·低代码
zayzy2 小时前
提示词prompt工程
prompt
Joy T2 小时前
【PE 实践】从“写提示词”到“构建高可用大模型系统”
prompt·pe·提示词工程·few shot
卓律涤2 小时前
【工作篇】 Dell机架式服务器,采用RAID 5,怎么部署win系统
运维·服务器·单片机·嵌入式硬件·深度学习·程序人生·安全
哆啦code梦3 小时前
从prompt输入到大模型输出回答, 中间经历了什么?
prompt·提示词工程·大模型输出
Tadas-Gao3 小时前
从暴力美学到理性重构:Transformer架构的黄昏与后AI时代的新曙光
人工智能·深度学习·架构·大模型·transformer
AI人工智能+3 小时前
基于深度学习的营业执照识别系统,通过图像预处理、OCR识别和NLP解析三大技术模块,实现对复杂版式营业执照的高效精准识别
深度学习·自然语言处理·营业执照识别