Lora训练

一种大模型高效训练方式(PEFT)

目标:

训练有限的ΔW(权重更新矩阵)

ΔW为低秩矩阵→ΔW=AB(其中A的大小为d r, B的大小为rk,且r<<min(d,k))→ 原本要更新的dk参数量大幅度缩减成r*(d+k),训练更高效

问题:

1、矩阵的秩(rank)是什么?

矩阵行向量或列向量的极大线性无关组的向量个数,等价于:

矩阵中非零奇异值的个数。
矩阵线性变换后空间的维度(像空间的维数)。
2、为什么ΔW为低秩矩阵?

微调只需要调整少数方向
3、为什么r<<min(d,k)?

奇异值分解可以解释。

相关推荐
AI科技星9 小时前
从ZUFT光速螺旋运动求导推出自然常数e
服务器·人工智能·线性代数·算法·矩阵
love530love9 小时前
Windows 下 GCC 编译器安装与排错实录
人工智能·windows·python·gcc·msys2·gtk·msys2 mingw 64
倔强的石头1069 小时前
归纳偏好 —— 机器学习的 “择偶标准”
人工智能·机器学习
老鼠只爱大米9 小时前
LeetCode经典算法面试题 #78:子集(回溯法、迭代法、动态规划等多种实现方案详细解析)
算法·leetcode·动态规划·回溯·位运算·子集
zhangshuang-peta9 小时前
通过MCP实现安全的多渠道人工智能集成
人工智能·ai agent·mcp·peta
听麟9 小时前
HarmonyOS 6.0+ APP AR文旅导览系统开发实战:空间定位与文物交互落地
人工智能·深度学习·华为·ar·wpf·harmonyos
AI_567810 小时前
阿里云OSS成本优化:生命周期规则+分层存储省70%
运维·数据库·人工智能·ai
执着25910 小时前
力扣hot100 - 199、二叉树的右视图
数据结构·算法·leetcode
龙山云仓10 小时前
MES系统超融合架构
大数据·数据库·人工智能·sql·机器学习·架构·全文检索
I_LPL10 小时前
day21 代码随想录算法训练营 二叉树专题8
算法·二叉树·递归