LLM--SFT简介

羊小猪~~2026-04-04 11:24

SFT

SFT，监督微调 ，指在预训练模型的基础上 ，通过有标注的数据进行下一步训练，使其称为在特定任务上表现良好。

具体步骤：

预训练：在大量通用无标注的数据上进行训练
数据收集和标注：收集并且标注目标任务的数据
监督微调：在预训练模型基础上进一步在特定数据上进行训练，使其能够运用在特定任务上
模型评估：对训练模型进行评估

监督微调主流方法

全参数微调(Full Fine-Tunning)

原理：对预训练所有参数进行更新，使用标注数据直接优化目标

优点：效果最好

缺点：计算量庞大，可能过拟合小数据型

适用：计算资源充足，数据量大

参数高校微调(Parameter-Efficient Fine-Tunning)

原理：在预训练模型中，冻结大部分参数，只微调小部分参数进行更新。如：在Transformer模型中，只更新最后几层与输出有关的参数。

优点：计算量低，适合大模型

缺点：计算可能不够准确

经典方法：

Adapter：在Transformer中插入小型神经网络
LoRA：用低秩分解模拟参数更新(这个看论文才能比较好理解)。
QLoRA：结合量化和LoRA
Prompt Tunning：仅优化输入的软提示，冻结模型参数

上一篇：Keil4下载及安装（STM32）：零基础入门必读操作指南

下一篇：C++零基础到工程实战（1.1）：理解第一个简单且重要的cpp程序

热门推荐

01GitHub 镜像站点 022026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 03【AI】2026 年具身智能模型和世界模型总结 04Codex 下载安装指南：Windows 和 macOS 官方版下载 05Codex 桌面端更新后 Chrome 插件和 Computer Use 不可用，怎么排查和修复 06【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 07CC-Switch 下载、安装与使用配置指南【2026.5.29】08Codex 接入 DeepSeek API 完整配置文档 09CC-Switch & Claude 基于 Linux 服务器安装使用指南 10裂开！ChatGPT 居然开始要手机号验证，附详细解决方法