LLM--SFT简介

SFT

SFT,监督微调 ,指在预训练模型的基础上 ,通过有标注的数据进行下一步训练,使其称为在特定任务上表现良好。

具体步骤

  • 预训练:在大量通用无标注的数据上进行训练
  • 数据收集和标注:收集并且标注目标任务的数据
  • 监督微调:在预训练模型基础上进一步在特定数据上进行训练,使其能够运用在特定任务上
  • 模型评估:对训练模型进行评估

监督微调主流方法

全参数微调(Full Fine-Tunning)

原理:对预训练所有参数进行更新,使用标注数据直接优化目标

优点:效果最好

缺点:计算量庞大,可能过拟合小数据型

适用:计算资源充足,数据量大

参数高校微调(Parameter-Efficient Fine-Tunning)

原理:在预训练模型中,冻结大部分参数,只微调小部分参数进行更新。如:在Transformer模型中,只更新最后几层与输出有关的参数。

优点:计算量低,适合大模型

缺点:计算可能不够准确

经典方法

  • Adapter:在Transformer中插入小型神经网络
  • LoRA:用低秩分解模拟参数更新(这个看论文才能比较好理解)。
  • QLoRA:结合量化和LoRA
  • Prompt Tunning:仅优化输入的软提示,冻结模型参数
相关推荐
JouYY1 小时前
聊一下多 Agent 编排架构的应用实践
架构·llm·agent
ThreeS2 小时前
手搓MiniVLA全实战教程-一步一步用pytorch解释原理与思路
人工智能·python
金銀銅鐵4 小时前
[Python] 模 n 乘法的逆元计算器
python·数学·游戏
aqi004 小时前
15天学会AI应用开发(十)把文本嵌入模型换成国产模型
人工智能·python·ai编程
_清歌6 小时前
DSpark 深度解读:DeepSeek-V4 如何用「半自回归」把推理速度提升 85%
算法
统计实现局6 小时前
SVD 的三步走:双对角化、Givens 收敛、排序
算法
躬行见万象6 小时前
《VLA 系列》UniLab 强化训练 | G1 机器人 |复现
算法
统计实现局6 小时前
对称不定分解(Bunch-Kaufman):为什么 Cholesky 不够用
算法