Lora训练

一种大模型高效训练方式(PEFT)

目标:

训练有限的ΔW(权重更新矩阵)

ΔW为低秩矩阵→ΔW=AB(其中A的大小为d r, B的大小为rk,且r<<min(d,k))→ 原本要更新的dk参数量大幅度缩减成r*(d+k),训练更高效

问题:

1、矩阵的秩(rank)是什么?

矩阵行向量或列向量的极大线性无关组的向量个数,等价于:

矩阵中非零奇异值的个数。
矩阵线性变换后空间的维度(像空间的维数)。
2、为什么ΔW为低秩矩阵?

微调只需要调整少数方向
3、为什么r<<min(d,k)?

奇异值分解可以解释。

相关推荐
一条大祥脚几秒前
Codeforces Round 1072 (Div. 3) 树形背包|线段树二分|区间并查集维护区间合并/set维护区间分裂
算法·深度优先·图论
土豆.exe4 分钟前
IfAI v0.3.0 - 从“文本“到“多模态“的感知升级
人工智能·编辑器
JicasdC123asd5 分钟前
如何使用YOLOv10n进行台风灾害区域识别与分类——基于改进的HAFB-2模型实现
人工智能·yolo·分类
Xの哲學12 分钟前
Linux SKB: 深入解析网络包的灵魂
linux·服务器·网络·算法·边缘计算
无限进步_16 分钟前
【C语言&数据结构】二叉树遍历:从前序构建到中序输出
c语言·开发语言·数据结构·c++·算法·github·visual studio
抖知书17 分钟前
喂饭级AI提示词公开!帮短视频创作者写脚本大纲
人工智能
Elastic 中国社区官方博客18 分钟前
JINA AI 与 Elasticsearch 的集成
大数据·人工智能·elasticsearch·搜索引擎·全文检索·jina
CodeByV19 分钟前
【算法题】哈希
算法·哈希算法
天赐学c语言25 分钟前
1.14 - 用栈实现队列 && 对模板的理解以及模板和虚函数区别
c++·算法·leecode
高洁0126 分钟前
AI智能体搭建(3)
人工智能·深度学习·算法·数据挖掘·知识图谱