LLM--SFT简介

SFT

SFT,监督微调 ,指在预训练模型的基础上 ,通过有标注的数据进行下一步训练,使其称为在特定任务上表现良好。

具体步骤

  • 预训练:在大量通用无标注的数据上进行训练
  • 数据收集和标注:收集并且标注目标任务的数据
  • 监督微调:在预训练模型基础上进一步在特定数据上进行训练,使其能够运用在特定任务上
  • 模型评估:对训练模型进行评估

监督微调主流方法

全参数微调(Full Fine-Tunning)

原理:对预训练所有参数进行更新,使用标注数据直接优化目标

优点:效果最好

缺点:计算量庞大,可能过拟合小数据型

适用:计算资源充足,数据量大

参数高校微调(Parameter-Efficient Fine-Tunning)

原理:在预训练模型中,冻结大部分参数,只微调小部分参数进行更新。如:在Transformer模型中,只更新最后几层与输出有关的参数。

优点:计算量低,适合大模型

缺点:计算可能不够准确

经典方法

  • Adapter:在Transformer中插入小型神经网络
  • LoRA:用低秩分解模拟参数更新(这个看论文才能比较好理解)。
  • QLoRA:结合量化和LoRA
  • Prompt Tunning:仅优化输入的软提示,冻结模型参数
相关推荐
北灵聊AI2 小时前
傻瓜式操作定制 Claude Code 宠物 Buddy
ai
AnalogElectronic2 小时前
考研408计算机学科专业基础综合——操作系统复习
考研
无心水2 小时前
17、Java内存溢出(OOM)避坑指南:三个典型案例深度解析
java·开发语言·后端·python·架构·java.time·java时间处理
AnalogElectronic2 小时前
考研408计算机学科专业基础综合——计算机网络复习
计算机网络·考研
Agent产品评测局2 小时前
企业 Agent 流程上线后,如何实现持续优化与迭代?——2026年企业级智能体长效运营全景指南
人工智能·ai·chatgpt
广州灵眸科技有限公司2 小时前
瑞芯微(EASY EAI)RV1126B 人脸98关键点算法识别
开发语言·科技·嵌入式硬件·物联网·算法·php
篮子里的玫瑰2 小时前
FreeRTOS:信号量与互斥量在DMA串口发送中的实战剖析
stm32·单片机·嵌入式硬件·算法
hughnz2 小时前
钻头技术持续突飞猛进:地热钻探领域的创新
人工智能·算法
xiaoye-duck2 小时前
《算法题讲解指南:动态规划算法--子数组系列》--21.乘积最大子数组,22.乘积为正数的最长子数组
c++·算法·动态规划