DoRA: Weight-Decomposed Low-Rank Adaptation

liferecords2024-02-26 16:02

摘要 (Abstract):

DoRA 是一种新的参数高效微调（PEFT）方法，它通过将预训练权重分解为幅度（magnitude）和方向（direction）两个组成部分来进行微调。这种方法特别利用了LoRA来进行方向更新，以有效减少可训练参数的数量。DoRA 的目标是模仿全微调（FT）的学习能力，同时避免额外的推理开销。实验结果表明，DoRA 在多个下游任务上，如常识推理、视觉指令调整和图像/视频文本理解，始终优于LoRA。

核心方法 (Core Method):

DoRA 方法的核心在于将预训练的权重矩阵分解为幅度向量（m）和方向矩阵（V），然后对这两个部分进行微调。具体来说，DoRA 使用LoRA 对方向矩阵 V 进行更新，同时允许幅度向量 m 单独训练。这种分解策略简化了LoRA的任务，使其专注于方向适应，同时保持了幅度的可调性。DoRA 的公式可以表示为 W' = m (V + ΔV)/norm = m (W + BA)/norm，其中 ΔV 是通过两个低秩矩阵 B 和 A 学习得到的增量方向更新。

实验结果 (Experimental Results):

DoRA 在多个下游任务上对LLaMA、LLaVA和VL-BART进行微调，实验结果显示DoRA在不牺牲推理效率的情况下，始终优于LoRA。例如，在常识推理任务上，DoRA 在LLaMA-7B/13B上的表现比LoRA提高了3.4/+1.0，在视觉指令调整任务上，DoRA 在LLaVA-7B上提高了0.6，在图像/视频文本理解任务上，DoRA 在VL-BART上提高了0.9/+1.9。

结论 (Conclusion):

DoRA 提供了一种新的PEFT方法，它通过权重分解来实现与FT相似的学习容量，同时保持了与LoRA相同的推理效率。DoRA 在多个任务和模型上的表现优于LoRA，证明了其在参数高效微调方面的潜力。

参考链接 (Reference Link):