LLM--SFT简介

SFT

SFT,监督微调 ,指在预训练模型的基础上 ,通过有标注的数据进行下一步训练,使其称为在特定任务上表现良好。

具体步骤

  • 预训练:在大量通用无标注的数据上进行训练
  • 数据收集和标注:收集并且标注目标任务的数据
  • 监督微调:在预训练模型基础上进一步在特定数据上进行训练,使其能够运用在特定任务上
  • 模型评估:对训练模型进行评估

监督微调主流方法

全参数微调(Full Fine-Tunning)

原理:对预训练所有参数进行更新,使用标注数据直接优化目标

优点:效果最好

缺点:计算量庞大,可能过拟合小数据型

适用:计算资源充足,数据量大

参数高校微调(Parameter-Efficient Fine-Tunning)

原理:在预训练模型中,冻结大部分参数,只微调小部分参数进行更新。如:在Transformer模型中,只更新最后几层与输出有关的参数。

优点:计算量低,适合大模型

缺点:计算可能不够准确

经典方法

  • Adapter:在Transformer中插入小型神经网络
  • LoRA:用低秩分解模拟参数更新(这个看论文才能比较好理解)。
  • QLoRA:结合量化和LoRA
  • Prompt Tunning:仅优化输入的软提示,冻结模型参数
相关推荐
2301_8135995520 小时前
Go语言怎么做秒杀系统_Go语言秒杀系统实战教程【实用】
jvm·数据库·python
--fancy1 天前
股票预测情感分析研究案例分析
python
shughui1 天前
PyCharm 完整教程(旧版本卸载+旧/新版本下载安装+基础使用,2026最新版附安装包)
ide·python·pycharm
AI机器学习算法1 天前
深度学习模型演进:6个里程碑式CNN架构
人工智能·深度学习·cnn·大模型·ai学习路线
Ztopcloud极拓云视角1 天前
从 OpenRouter 数据看中美 AI 调用量反转:统计口径、模型路由与多云应对方案
人工智能·阿里云·大模型·token·中美ai
专注写bug1 天前
Spring AI Alibaba——支持Agent Skill
ai·llm·langchain4j·ai alibaba
小糖学代码1 天前
LLM系列:1.python入门:15.JSON 数据处理与操作
开发语言·python·json·aigc
yejqvow121 天前
CSS如何控制placeholder文字的颜色_使用--placeholder伪元素
jvm·数据库·python
m0_743623921 天前
HTML怎么创建多语言切换器_HTML语言选择下拉结构【指南】
jvm·数据库·python