Lora训练

一种大模型高效训练方式(PEFT)

目标:

训练有限的ΔW(权重更新矩阵)

ΔW为低秩矩阵→ΔW=AB(其中A的大小为d r, B的大小为rk,且r<<min(d,k))→ 原本要更新的dk参数量大幅度缩减成r*(d+k),训练更高效

问题:

1、矩阵的秩(rank)是什么?

矩阵行向量或列向量的极大线性无关组的向量个数,等价于:

矩阵中非零奇异值的个数。
矩阵线性变换后空间的维度(像空间的维数)。
2、为什么ΔW为低秩矩阵?

微调只需要调整少数方向
3、为什么r<<min(d,k)?

奇异值分解可以解释。

相关推荐
掘金安东尼5 小时前
文心 5.0:原生全模态时代的技术分水岭
人工智能
徽4405 小时前
YOLOv5植物模型开发综述
人工智能·目标检测·计算机视觉
徐行tag5 小时前
RLS(递归最小二乘)算法详解
人工智能·算法·机器学习
南方的狮子先生6 小时前
【C++】C++文件读写
java·开发语言·数据结构·c++·算法·1024程序员节
阿里云云原生6 小时前
阿里云 FunctionAI 技术详解:基于 Serverless 的企业级 AI 原生应用基础设施构建
人工智能·阿里云·serverless
感智教育6 小时前
2025 年世界职业院校技能大赛汽车制造与维修赛道备赛方案
人工智能·汽车·制造
Alex艾力的IT数字空间6 小时前
完整事务性能瓶颈分析案例:支付系统事务雪崩优化
开发语言·数据结构·数据库·分布式·算法·中间件·php
8Qi86 小时前
Stable Diffusion详解
人工智能·深度学习·stable diffusion·图像生成
激动的小非6 小时前
电商数据分析报告
大数据·人工智能·数据分析
玖剹6 小时前
二叉树递归题目(一)
c语言·c++·算法·leetcode