Lora训练

一种大模型高效训练方式(PEFT)

目标:

训练有限的ΔW(权重更新矩阵)

ΔW为低秩矩阵→ΔW=AB(其中A的大小为d r, B的大小为rk,且r<<min(d,k))→ 原本要更新的dk参数量大幅度缩减成r*(d+k),训练更高效

问题:

1、矩阵的秩(rank)是什么?

矩阵行向量或列向量的极大线性无关组的向量个数,等价于:

矩阵中非零奇异值的个数。
矩阵线性变换后空间的维度(像空间的维数)。
2、为什么ΔW为低秩矩阵?

微调只需要调整少数方向
3、为什么r<<min(d,k)?

奇异值分解可以解释。

相关推荐
virtual_k1smet1 天前
#等价于e * d ≡ 1 mod φ(n) #模逆元详解
人工智能·算法·机器学习
可触的未来,发芽的智生1 天前
新奇特:神经网络的集团作战思维,权重共享层的智慧
人工智能·python·神经网络·算法·架构
_屈臣_1 天前
卡特兰数【模板】(四个公式模板)
c++·算法
H3C-Navigator1 天前
HRPC在Polaris存储系统中的应用
网络·人工智能·ai-native
智慧地球(AI·Earth)1 天前
智能体版中科院学术GPT上线内测!AI与科研的深度碰撞
人工智能·gpt·科研助手·学术智能体
文火冰糖的硅基工坊1 天前
[创业之路-653]:社会产品与服务的分类
大数据·数据库·人工智能
StarPrayers.1 天前
基于PyTorch的CIFAR10加载与TensorBoard可视化实践
人工智能·pytorch·python·深度学习·机器学习
坚持编程的菜鸟1 天前
LeetCode每日一题——交替合并字符串
c语言·算法·leetcode
悦悦子a啊1 天前
[Java]PTA: jmu-Java-02基本语法-08-ArrayList入门
java·开发语言·算法
肖书婷1 天前
人工智能-机器学习day4
人工智能·机器学习