2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

Paper:https://openreview.net/forum?id=lq62uWRJjiY

Code:https://github.com/QingruZhang/AdaLoRA

自适应计算分配,实现参数高效微调

为了实现动态地调节Lora的rank的大小,首先将Lora改写为SVD的形式。这是对LoRA的一种改进,它根据重要性评分动态分配参数预算给权重矩阵。

调整增量矩分配。AdaLoRA将关键的增量矩阵分配高秩以捕捉更精细和任务特定的信息,而将较不重要的矩阵的秩降低,以防止过拟合并节省计算预算。

以奇异值分解的形式对增量更新进行参数化,并根据重要性指标裁剪掉不重要的奇异值,同时保留奇异向量。由于对一个大矩阵进行精确SVD分解的计算消耗非常大,这种方法通过减少它们的参数预算来加速计算,同时,保留未来恢复的可能性并稳定训练。

W = W ( 0 ) + Δ = W ( 0 ) + P Λ Q W=W^{(0)}+\Delta=W^{(0)}+P \Lambda Q W=W(0)+Δ=W(0)+PΛQ

在训练损失中添加了额外的惩罚项,以规范奇异矩阵P和Q的正交性,从而避免SVD的大量计算并稳定训练。

相关推荐
speop11 小时前
TASK09 | Reasoning Kingdom | Transformer : 动态拓扑的注意力革命
人工智能·深度学习·transformer
jay神11 小时前
基于YOLO26的珍稀鸟类检测系统
人工智能·深度学习·yolo·目标检测·毕业设计
renhongxia111 小时前
计算机视觉实战:图像去噪模型训练与应用
开发语言·人工智能·机器学习·计算机视觉·prompt
高洁0111 小时前
用AI制作科研演示动画:提升学术汇报效果
人工智能·深度学习·机器学习·数据挖掘·知识图谱
AI算法沐枫11 小时前
OpenAI Operator vs Claude Act:两大厂商Agent对比
人工智能·深度学习·神经网络·计算机视觉·大模型·rag
IT届小白11 小时前
无代码开发实战:用AI+Prompt工程从0到1构建排班记录App
人工智能·prompt
铁手飞鹰11 小时前
高光谱化学成分预测
人工智能·深度学习·机器学习
做个文艺程序员11 小时前
用 Codex 写运维脚本(二)—— Prompt 工程:如何精准描述你的脚本需求
运维·prompt
zhangfeng113311 小时前
LLaMA-Factory 在训练模型时检查点(Checkpoint)文件说明
人工智能·深度学习·llama
烛之武11 小时前
《深度学习基础与概念》笔记(1)
人工智能·笔记·深度学习