2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning

Paper:https://openreview.net/forum?id=lq62uWRJjiY

Code:https://github.com/QingruZhang/AdaLoRA

自适应计算分配,实现参数高效微调

为了实现动态地调节Lora的rank的大小,首先将Lora改写为SVD的形式。这是对LoRA的一种改进,它根据重要性评分动态分配参数预算给权重矩阵。

调整增量矩分配。AdaLoRA将关键的增量矩阵分配高秩以捕捉更精细和任务特定的信息,而将较不重要的矩阵的秩降低,以防止过拟合并节省计算预算。

以奇异值分解的形式对增量更新进行参数化,并根据重要性指标裁剪掉不重要的奇异值,同时保留奇异向量。由于对一个大矩阵进行精确SVD分解的计算消耗非常大,这种方法通过减少它们的参数预算来加速计算,同时,保留未来恢复的可能性并稳定训练。

W = W ( 0 ) + Δ = W ( 0 ) + P Λ Q W=W^{(0)}+\Delta=W^{(0)}+P \Lambda Q W=W(0)+Δ=W(0)+PΛQ

在训练损失中添加了额外的惩罚项,以规范奇异矩阵P和Q的正交性,从而避免SVD的大量计算并稳定训练。

相关推荐
高洁012 小时前
大模型微调进阶:多任务微调实战
人工智能·python·深度学习·机器学习·transformer
强盛小灵通专卖员2 小时前
基于深度学习 的急性阑尾炎CT 影像诊断
人工智能·深度学习·医学影像·ei会议
冲上云霄的Jayden3 小时前
LangGraph4j+LangChain4J 实验智能客服系统增加基于LLM 解决Prompt注入问题
prompt·agent·智能客服·langchain4j·agent安全·langgraph4j·prompt注入
小超同学你好4 小时前
OpenClaw 深度解析与源代码导读 · 第3篇:Gateway——常驻控制面、单端口多协议与进程骨架
人工智能·深度学习·语言模型·gateway
yunhuibin5 小时前
videopipe学习之demo运行
人工智能·深度学习·学习
AGV算法笔记5 小时前
GaussianWorld:多帧融合到世界建模的跃迁
人工智能·深度学习·计算机视觉·自动驾驶·感知算法·三维感知
mailangduoduo5 小时前
实战对比PyTorch VS PyTorch Lighting以MNIST为例
人工智能·pytorch·python·深度学习·图像分类·全连接网络
kisdiem6 小时前
DeepSeek-OCR 2:给人工智能更像人类的眼睛
人工智能·深度学习·计算机视觉
时光之源6 小时前
一场关于红绿灯检测项目的辩论赛——YOLOv26
深度学习·yolo·grok·gemini·deepseek
该醒醒了~6 小时前
深度学习异常检测Anomalib算法训练+推理+转化+onnx
人工智能·python·深度学习