lora矩阵的初始化为啥B矩阵为0呢,为啥不是A呢

在 LoRA 论文及其标准实现中,LoRA 矩阵 B 确实被初始化为零矩阵,而矩阵 A 则使用标准的初始化方法(例如 Kaiming 或 Xavier 均匀分布)进行初始化。

LoRA 引入的权重更新 \\Delta W 定义为两个低秩矩阵 AB 的乘积:

\\Delta W = B A

1. 为什么 B 矩阵初始化为零?

B 矩阵初始化为零是为了确保在训练开始时,新的 LoRA 模块不会对基座模型(Pre-trained Model)的输出产生任何干扰或改变。

  • 如果 B = 0\\Delta W = B A,那么在训练开始的第一个前向传播中:

    \\Delta W = 0 \\cdot A = 0

  • 这意味着原始的权重矩阵 W 上的更新项 \\Delta W 也是零。模型的输出完全由原始的预训练权重 W 决定,即 W' = W + \\Delta W = W + 0 = W

  • 好处: 这样可以确保训练从一个稳定且收敛良好的预训练状态开始,避免由于随机初始化带来的剧烈、不稳定的梯度波动,从而保护了预训练模型已经学到的知识。

2. 为什么不是 A 初始化为零?

如果 A 矩阵初始化为零,也会得到 \\Delta W = B \\cdot 0 = 0,效果看起来一样。

然而,将 A 初始化为零会带来一个训练过程中的优化问题

  • 梯度消失或不均匀: LoRA 结构是串联的:输入 \\rightarrow A \\rightarrow B \\rightarrow 输出。

    • 如果 A 初始为零,则 A 矩阵的输出会是零向量。

    • 当进行反向传播计算 B 的梯度时,由于 A 的输出是零,导致 B 的输入梯度也会是零(或非常小),这使得 B 矩阵的参数在训练初期难以被有效更新。

    • 虽然 A 矩阵会得到非零的梯度,但整体来看,如果 A 是零,会造成数据流和梯度流在 LoRA 路径上产生瓶颈,使得训练效率低下。

总结:

矩阵 初始化方法 目的
A 矩阵 随机初始化 (例如 Kaiming/Xavier) 确保 LoRA 路径开始时有有效的、非零的数据流,以便 BA 都能接收到正常的梯度信号,加速训练。
B 矩阵 零矩阵 确保 \\Delta W = B A = 0,保证训练从预训练模型的原始状态平稳开始,维护模型的稳定性。
相关推荐
L、2182 小时前
CANN ops-transformer 仓库详解:Transformer 算子的底层实现与性能优化
深度学习·性能优化·transformer
嗝o゚2 小时前
昇腾CANN ge 仓的图优化 Pass:哪些 Pass 真正影响推理性能
pytorch·python·深度学习·cann·ge-pass
L、2183 小时前
昇腾NPU性能调优Checklist——从“能跑“到“跑得快“的20步
服务器·人工智能·深度学习
碧海银沙音频科技研究院4 小时前
恒玄bes2600WM+DSP蓝牙耳机项目
深度学习·语音识别
蓦然回首却已人去楼空4 小时前
深度学习进阶:自然语言处理|4.1.2 QA|grads 列表与省略号 [...] 详解
人工智能·深度学习·自然语言处理
手写码匠4 小时前
Android 17 适配实战指南:新特性解读、隐私变更与迁移全攻略
人工智能·深度学习·算法·aigc
端平入洛4 小时前
单个感知机为何无法解决异或问题?
人工智能·深度学习
Narv工程师5 小时前
嵌入式机器人控制器算力评估:从DMIPS到WCET的完整指南
人工智能·算法·机器学习
AI医影跨模态组学5 小时前
J Thorac Oncol(IF=20.8)广东省人民医院钟文昭教授团队:基于影像组学的支持向量机区分驱动肺腺癌进展的分子事件
人工智能·深度学习·机器学习·论文·医学·医学影像·影像组学
AI医影跨模态组学6 小时前
Radiol Artif Intell 中山大学肿瘤防治中心放疗科:基于连续MRI的深度学习模型预测局部晚期鼻咽癌患者生存期
人工智能·深度学习·论文·医学·医学影像·影像组学