Lora训练

一种大模型高效训练方式(PEFT)

目标:

训练有限的ΔW(权重更新矩阵)

ΔW为低秩矩阵→ΔW=AB(其中A的大小为d r, B的大小为rk,且r<<min(d,k))→ 原本要更新的dk参数量大幅度缩减成r*(d+k),训练更高效

问题:

1、矩阵的秩(rank)是什么?

矩阵行向量或列向量的极大线性无关组的向量个数,等价于:

矩阵中非零奇异值的个数。
矩阵线性变换后空间的维度(像空间的维数)。
2、为什么ΔW为低秩矩阵?

微调只需要调整少数方向
3、为什么r<<min(d,k)?

奇异值分解可以解释。

相关推荐
致Great41 分钟前
MCP出现的意义是什么?让 AI 智能体更模块化
大数据·人工智能·rag
沉到海底去吧Go1 小时前
【工具教程】识别PDF中文字内容,批量识别文字并保存到Excel表格中的操作步骤和方法
人工智能·pdf·excel·pdf识别改名·pdf图片区域是被改名·pdf读取内容改名·pdf提取内容导出表格
Wilber的技术分享1 小时前
【机器学习实战笔记 12】集成学习:AdaBoost算法
人工智能·笔记·算法·决策树·机器学习·分类·集成学习
小和尚同志2 小时前
在 Dify 中使用 DeepWiki 官方提供的 MCP 服务
人工智能·aigc
only-lucky2 小时前
vtk和opencv和opengl直接的区别是什么?
人工智能·opencv·计算机视觉
acstdm2 小时前
DAY 35 模型可视化与推理
人工智能·python
19892 小时前
【Dify精讲】第12章:性能优化策略与实践
人工智能·python·深度学习·性能优化·架构·flask·ai编程
金融小师妹2 小时前
基于LSTM-GARCH混合模型的“获利了结”量化解析:黄金单日1.27%跌幅的技术性归因
大数据·人工智能·算法
jndingxin3 小时前
OpenCV CUDA模块设备层-----GPU上执行线程安全的 “原子取最大值” 操作函数
人工智能·opencv·计算机视觉
快手技术3 小时前
效果&成本双突破!快手提出端到端生成式推荐系统OneRec!
人工智能·深度学习·大模型·推荐算法