NLP高频面试题（十二）——Lora微调的原理、什么是Qlora

LoRA（Low-Rank Adaptation）是一种针对大型预训练模型的微调方法，其核心思想是通过低秩矩阵分解的方式高效实现模型参数的微调。传统的微调方法通常需要更新模型所有的参数，而LoRA则通过新增一个并行的低秩结构来间接实现模型参数的更新。

在标准的神经网络全连接层中，权重矩阵一般是高维的、满秩的矩阵。而LoRA的主要思想则是认为针对特定任务进行微调时，这些权重矩阵实际上可以通过一个低秩矩阵来很好地近似。

具体来说，LoRA在原始模型权重矩阵 (W_0) 的旁边增加了两个新的矩阵 (A) 和 (B)：

因此，更新的权重 ( Δ W ) (\Delta W) (ΔW)可以表示为两个矩阵的乘积 ( Δ W = B A ) (\Delta W = BA) (ΔW=BA)。整个计算公式如下：

h = W 0 x + Δ W x = W 0 x + B A x h = W_0 x + \Delta W x = W_0 x + BAx h=W0x+ΔWx=W0x+BAx

在实际训练过程中，仅更新 (A) 和 (B) 两个矩阵，而预训练模型 ( W 0 ) (W_0) (W0)的参数则保持不变。这使得参数更新量大大减少，提升了训练效率。

在推理时，只需将训练后的矩阵乘积 ( B A ) (BA) (BA) 与原有权重 ( W 0 ) (W_0) (W0) 相加，即可得到新的权重矩阵 ( W = W 0 + B A ) (W = W_0 + BA) (W=W0+BA)，对推理阶段的计算量几乎不造成额外负担。

Rank（秩）： 通常选择为8，过高会抵消LoRA的效率优势，实验发现高于16效果提升有限。
Alpha： 通常固定为16，用于缩放训练时的权重更新。
目标模块： 通常针对Attention机制的矩阵，比如Q、K、V矩阵（尤其是Q和V效果最佳）。
学习率： 推荐基础学习率为 ( 1 e − 4 ) (1e^{-4}) (1e−4)，如训练不稳定则降低到 ( 3 e − 5 ) (3e^{-5}) (3e−5)。

优势：

限制：

QLoRA（Quantized LoRA）是在LoRA基础上提出的一种创新技术，旨在进一步降低模型微调时的内存使用，通过量化预训练模型权重至4-bit，同时结合低秩适配器（LoRA）实现高效的微调。

QLoRA的重要创新包括以下几个方面：

QLoRA的出现极大地简化了大模型的微调和部署过程，主要表现为：

LoRA和QLoRA作为新兴的高效微调技术，极大地降低了大模型的使用门槛。未来，随着这些技术的进一步成熟和发展，每个人都能更方便地定制和部署个性化的AI服务，这也将推动AI应用进入更多领域与场景。