Lora训练

一种大模型高效训练方式(PEFT)

目标:

训练有限的ΔW(权重更新矩阵)

ΔW为低秩矩阵→ΔW=AB(其中A的大小为d r, B的大小为rk,且r<<min(d,k))→ 原本要更新的dk参数量大幅度缩减成r*(d+k),训练更高效

问题:

1、矩阵的秩(rank)是什么?

矩阵行向量或列向量的极大线性无关组的向量个数,等价于:

矩阵中非零奇异值的个数。
矩阵线性变换后空间的维度(像空间的维数)。
2、为什么ΔW为低秩矩阵?

微调只需要调整少数方向
3、为什么r<<min(d,k)?

奇异值分解可以解释。

相关推荐
严文文-Chris24 分钟前
【监督学习常用算法总结】
学习·算法
dongdeaiziji26 分钟前
PyTorch自动微分系统(Autograd)深度解析:从原理到源码实现
人工智能·pytorch·python
feifeigo12326 分钟前
电池的荷电状态(SOC)估计
算法
啊吧怪不啊吧27 分钟前
从数据到智能体大模型——cozeAI大模型开发(第一篇)
人工智能·ai·语言模型·ai编程
whaosoft-14328 分钟前
51c视觉~3D~合集9
人工智能
博语小屋1 小时前
力扣 15.三数之和(medium)(双指针)
算法·leetcode·职场和发展
勿在浮沙筑高台1 小时前
生产制造型供应链的采购业务流程总结:
人工智能·制造
无敌最俊朗@1 小时前
双指针-力扣hot100-移动零.283
算法·leetcode·职场和发展
练习时长一年1 小时前
LeetCode热题100(腐烂的橘子)
算法·leetcode·职场和发展
Тиё Сиротака7 小时前
红包分配算法的严格数学理论与完整实现
算法