Lora训练

一种大模型高效训练方式(PEFT)

目标:

训练有限的ΔW(权重更新矩阵)

ΔW为低秩矩阵→ΔW=AB(其中A的大小为d r, B的大小为rk,且r<<min(d,k))→ 原本要更新的dk参数量大幅度缩减成r*(d+k),训练更高效

问题:

1、矩阵的秩(rank)是什么?

矩阵行向量或列向量的极大线性无关组的向量个数,等价于:

矩阵中非零奇异值的个数。
矩阵线性变换后空间的维度(像空间的维数)。
2、为什么ΔW为低秩矩阵?

微调只需要调整少数方向
3、为什么r<<min(d,k)?

奇异值分解可以解释。

相关推荐
Hcoco_me3 分钟前
具身智能 && 自动驾驶相关岗位的技术栈与能力地图
人工智能·机器学习·自动驾驶
yinyan131430 分钟前
一起学springAI系列一:初体验
java·人工智能·ai
一只鹿鹿鹿1 小时前
【网络安全】信息网络安全建设方案(WORD)
人工智能·安全·spring·web安全·低代码
小拇指~1 小时前
梯度下降的基本原理
人工智能·算法·计算机视觉
艾莉丝努力练剑1 小时前
【C/C++】类和对象(上):(一)类和结构体,命名规范——两大规范,新的作用域——类域
java·c语言·开发语言·c++·学习·算法
AndrewHZ1 小时前
【图像处理基石】如何对遥感图像进行实例分割?
图像处理·人工智能·python·大模型·实例分割·detectron2·遥感图像分割
TDengine (老段)2 小时前
TDengine 中 TDgp 中添加机器学习模型
大数据·数据库·算法·机器学习·数据分析·时序数据库·tdengine
CodeShare2 小时前
某中心将举办机器学习峰会
人工智能·机器学习·数据科学
天天找自己2 小时前
精通分类:解析Scikit-learn中的KNN、朴素贝叶斯与决策树(含随机森林)
python·决策树·机器学习·分类·scikit-learn
那就摆吧2 小时前
U-Net vs. 传统CNN:为什么医学图像分割需要跳过连接?
人工智能·神经网络·cnn·u-net·医学图像