Lora训练

一种大模型高效训练方式(PEFT)

目标:

训练有限的ΔW(权重更新矩阵)

ΔW为低秩矩阵→ΔW=AB(其中A的大小为d r, B的大小为rk,且r<<min(d,k))→ 原本要更新的dk参数量大幅度缩减成r*(d+k),训练更高效

问题:

1、矩阵的秩(rank)是什么?

矩阵行向量或列向量的极大线性无关组的向量个数,等价于:

矩阵中非零奇异值的个数。
矩阵线性变换后空间的维度(像空间的维数)。
2、为什么ΔW为低秩矩阵?

微调只需要调整少数方向
3、为什么r<<min(d,k)?

奇异值分解可以解释。

相关推荐
AI即插即用1 小时前
即插即用系列 | SliMamba——空谱维度魔术转换,打造高光谱分类的超轻量级 Mamba 架构
人工智能·深度学习·神经网络·目标检测·计算机视觉·数据挖掘
CDYXY2 小时前
2026年4月成都卡布灯箱源头口碑深度调研与避坑指南
大数据·人工智能
吃好睡好便好7 小时前
用while循环语句求和
开发语言·学习·算法·matlab·信息可视化
小真zzz7 小时前
2026年GEO监测工具深度横评:谁在AI时代守护品牌心智?
人工智能·百度·重构
ZFSS7 小时前
Localization Translate API 集成与使用指南
java·服务器·数据库·人工智能·mysql·ai编程
天行健,君子而铎7 小时前
合规对标·低误报漏报·稳定运行——知源-AI数据分类分级系统金融行业解决方案
人工智能·金融·分类
王璐WL7 小时前
【C语言入门级教学】函数的概念2
c语言·数据结构·算法
视觉&物联智能7 小时前
【杂谈】-游戏生成数据:人工智能训练中极易被低估的核心资源
人工智能·游戏·ai·chatgpt·openai·agi·deepseek
扫地的小何尚8 小时前
NVIDIA Vera Rubin 平台如何解决 Agentic AI 的 Scale-up 难题
大数据·人工智能·机器学习
不知名的忻8 小时前
B 树与 B+ 树:面试完全指南
b树·算法·面试·b+树