Lora训练

一种大模型高效训练方式(PEFT)

目标:

训练有限的ΔW(权重更新矩阵)

ΔW为低秩矩阵→ΔW=AB(其中A的大小为d r, B的大小为rk,且r<<min(d,k))→ 原本要更新的dk参数量大幅度缩减成r*(d+k),训练更高效

问题:

1、矩阵的秩(rank)是什么?

矩阵行向量或列向量的极大线性无关组的向量个数,等价于:

矩阵中非零奇异值的个数。
矩阵线性变换后空间的维度(像空间的维数)。
2、为什么ΔW为低秩矩阵?

微调只需要调整少数方向
3、为什么r<<min(d,k)?

奇异值分解可以解释。

相关推荐
新智元1 分钟前
GPT-5系统提示词突遭泄露,17803 token曝光OpenAI小心思!
人工智能·openai
新智元14 分钟前
「机械飞升」18个月后,马斯克首位脑机植入者重磅发声:我重生了!
人工智能·openai
xuejianxinokok14 分钟前
大模型微调 Prompt Tuning与P-Tuning 的区别?
人工智能
用户51914958484522 分钟前
Authelia:开源双因素认证与单点登录解决方案
人工智能·aigc
martinzh26 分钟前
AI总让你失望?提示词链让我从骂'憨憨'变成夸'真棒'
人工智能
杨过过儿32 分钟前
Task03:CAMEL框架中的多智能体系统(课程第三章3.1节)
人工智能·自然语言处理
CoovallyAIHub1 小时前
目标检测模型评估金标准:mAP全解读,Coovally助你高效调参!
深度学习·算法·计算机视觉
whitepure1 小时前
万字详解常用算法(Java版)
java·后端·算法
CoovallyAIHub1 小时前
基于视觉的果园无人机导航:一种基于干预模仿学习与VAE控制器的真实世界验证
深度学习·算法·计算机视觉
平行绳2 小时前
打通系统边界:外部应用如何无缝调用 Coze 工作流?全指南来了
人工智能·coze