DoRA: Weight-Decomposed Low-Rank Adaptation

摘要 (Abstract):

DoRA 是一种新的参数高效微调(PEFT)方法,它通过将预训练权重分解为幅度(magnitude)和方向(direction)两个组成部分来进行微调。这种方法特别利用了LoRA来进行方向更新,以有效减少可训练参数的数量。DoRA 的目标是模仿全微调(FT)的学习能力,同时避免额外的推理开销。实验结果表明,DoRA 在多个下游任务上,如常识推理、视觉指令调整和图像/视频文本理解,始终优于LoRA。

核心方法 (Core Method):

DoRA 方法的核心在于将预训练的权重矩阵分解为幅度向量(m)和方向矩阵(V),然后对这两个部分进行微调。具体来说,DoRA 使用LoRA 对方向矩阵 V 进行更新,同时允许幅度向量 m 单独训练。这种分解策略简化了LoRA的任务,使其专注于方向适应,同时保持了幅度的可调性。DoRA 的公式可以表示为 W' = m (V + ΔV)/norm = m (W + BA)/norm,其中 ΔV 是通过两个低秩矩阵 B 和 A 学习得到的增量方向更新。

实验结果 (Experimental Results):

DoRA 在多个下游任务上对LLaMA、LLaVA和VL-BART进行微调,实验结果显示DoRA在不牺牲推理效率的情况下,始终优于LoRA。例如,在常识推理任务上,DoRA 在LLaMA-7B/13B上的表现比LoRA提高了3.4/+1.0,在视觉指令调整任务上,DoRA 在LLaVA-7B上提高了0.6,在图像/视频文本理解任务上,DoRA 在VL-BART上提高了0.9/+1.9。

结论 (Conclusion):

DoRA 提供了一种新的PEFT方法,它通过权重分解来实现与FT相似的学习容量,同时保持了与LoRA相同的推理效率。DoRA 在多个任务和模型上的表现优于LoRA,证明了其在参数高效微调方面的潜力。

参考链接 (Reference Link):

相关推荐
高锰酸钾_17 小时前
机器学习基础 | KNN(K-近邻)
人工智能·机器学习
人邮异步社区17 小时前
想要系统地学习扩散模型,应该怎么去做?
人工智能·学习·程序员·扩散模型
1***y17817 小时前
区块链跨链桥、 跨链桥到底在解决什么问题?
大数据·人工智能·区块链
腾飞开源17 小时前
09_Spring AI 干货笔记之多模态
图像处理·人工智能·spring ai·多模态大语言模型·多模态api·媒体输入·文本响应
liu****17 小时前
八.函数递归
c语言·开发语言·数据结构·c++·算法
CM莫问17 小时前
详解机器学习经典模型(原理及应用)——岭回归
人工智能·python·算法·机器学习·回归
七牛云行业应用17 小时前
告别RLHF?DeepSeek过程奖励(PRM)架构解析与推理数据流设计
人工智能·强化学习·大模型架构·deepseek
xcLeigh17 小时前
AI的提示词专栏:Prompt 与传统机器学习特征工程的异同
人工智能·机器学习·ai·prompt·提示词
DuHz17 小时前
论文阅读——Edge Impulse:面向微型机器学习的MLOps平台
论文阅读·人工智能·物联网·算法·机器学习·edge·边缘计算
诚丞成17 小时前
机器学习——生成对抗网络(GANs):原理、进展与应用前景分析
人工智能·机器学习·生成对抗网络