详解监督微调（SFT）：大模型指令遵循能力的核心构建方案

监督微调（SFT）作为大模型从通用预训练迈向特定任务适配的关键环节，通过特定任务的标签数据集，让预训练LLM习得指令遵循能力，无需依赖海量特定领域数据即可实现任务适配。本文将从核心概念、数据处理、模型训练到评估体系，全面拆解SFT的实践逻辑与关键要点。

一、SFT核心认知：与预训练的本质差异

SFT与预训练在训练方式和损失函数上保持一致，核心差异集中在数据形式与训练目的两大维度：

数据形式差异：预训练数据需填充至模型输入长度上限，而SFT数据保留原始长度，无需拼接打包；SFT会引入system、user等专用特殊token划分角色，还会加入预训练未涉及的eos_token实现生成终止控制；此外，SFT通常对prompt部分进行loss屏蔽，仅计算回答部分的损失，多轮对话场景需明确单轮或多轮回答的loss计算规则。
训练目的差异：预训练核心是"知识积累"，通过海量语料学习语言模式与通用知识；SFT核心是"技能应用"，聚焦指令遵循能力的培养，不可强行注入知识，否则会导致模型通用能力显著下降。

模型选择上，小模型在有限数据、资源受限场景表现突出，大模型（如GPT-4）则更适配复杂且数据丰富的任务。

二、SFT数据处理：质量与多样性优先的实践体系

数据是SFT的核心驱动力，业内共识是"prompt的质量和多样性远重要于数据量级"，一个30B量级的基础模型仅需10万量级数据即可完成有效微调。其完整处理流程涵盖数据获取、合成、过滤与多样性优化四大环节。

（一）数据获取：数据飞轮与开源资源结合

数据飞轮机制：通过拉取线上近半个月真实用户prompt，经启发式规则清洗后用GPT-4o打标筛选，同时基于用户反馈、模型打标等bad case构造修复数据，解决人工生成数据多样性不足、伪多轮对话等问题。
开源数据集参考：多轮对话类可选用RefGPT、generated_chat_0.4M；中文任务优先Belle系列、firefly-train-1.1M（含23种中文NLP任务及中华文化相关数据）；专业场景可搭配Alpaca-CoT（逻辑推理）、school_math_0.25M（数学运算）等数据集。

（二）数据合成：低成本高质量的核心路径

合成数据是保障SFT效果的关键，核心思路是通过多元方法确保prompt多样性：

prompt合成：采用Self-Instruct方法，划分细分task_type并准备种子prompt，由大模型续写生成新问题；或通过启发式规则改写现有数据集，生成纯文本、markdown等多种格式及不同行文风格的prompt。
answer合成：高成本场景可选GPT-4/Claude 3，中文场景可部署Qwen_72B等开源大模型；也可通过"大模型少量标注+小模型扩量"模式，用GPT-4生成千条高质量answer训练小模型，再由小模型批量生成上万条数据。
工业界进阶做法：对同一prompt采样多条推理路径，通过人工或验证模型筛选最优路径，构造偏好数据用于SFT或后续DPO训练。

（三）数据过滤：双重机制保障质量

IFD过滤：基于指令跟踪难度筛选数据，先让模型学习多样化指令子集获得基础鉴别力，再通过计算"指令-回答"匹配损失与答案内在难度得分的比值，筛选适配模型能力的数据。
MoDS过滤：从质量、覆盖范围、必要性三维度筛选，先用奖励模型打分筛选高质量数据，再通过K-Center-Greedy算法保证多样性，最后用初始模型预测结果筛选模型未掌握的必要数据。

（四）数据多样性：三维度优化策略

数据多样性需覆盖用途、形式、语义三个维度，避免模型训练过拟合或泛化能力退化：

用途多样性：覆盖翻译、NER、意图识别等传统NLP任务，结合业务需求补充场景化任务（如节日对春联），采用"主任务-子任务"的双层分类，难任务分配更多数据量。
形式多样性：prompt表达方式、难度、长度需均衡，关键信息位置随机分布；answer长度与分布需多元，避免重复回答；包含话题切换的多轮对话数据，培养模型上下文判断能力。
语义多样性：通过K-Means/KNN聚类分析数据分布，利用句嵌入距离、词频统计等指标监控采样前后的多样性变化。

三、SFT模型训练：参数、策略与实操要点

SFT训练无需过度魔改损失函数与训练框架，核心是通过合理的参数设置、训练策略与专项优化，实现指令遵循能力的高效习得。

（一）训练框架与核心参数

推荐框架：OpenRLHF（基于Ray+DeepSpeed），操作简洁，仅需调整checkpoint路径、模型路径、数据路径等核心参数。
关键参数设置：
1. epoch：通用场景设为1，垂域小数据集（1万条以内）可设为3，利用适度过拟合提升效果；
2. 学习率：通常为预训练阶段的10倍左右，预训练若为1.5e-6，SFT可设为3e-5；
3. 批量大小：全局批量大小=梯度累积步数×单设备批量大小×设备数量，需结合硬件资源调整；
4. 其他参数：学习率调度器优先选择cosine类型，zero_stage设为2（平衡性能与速度），max_seq_len默认4K，开启梯度检查点降低内存占用。

（二）训练策略与专项优化

基础训练策略：包括混合不同数据源的多任务学习、按顺序训练不同数据集的顺序训练、"专业数据多任务+通用数据SFT"的混合序列训练，以及分阶段混合专业与通用数据的双阶段混合微调（DMT）。
多轮对话专项优化：
1. 数据筛选：用判别模型区分真多轮（主题连续）与伪多轮（主题切换）数据，适量加入伪多轮数据提升模型注意力调整能力；
2. 数据合成：通过单轮对话构造第二轮prompt及回答，补充多轮数据量；
3. loss计算：采用三轮平均策略，禁用micro batch、DP、梯度累加维度的自动平均，以全局batch的对话轮数为分母，避免短输出数据训练不充分。
关键禁忌：不建议使用packing策略，尤其在数据量小或困难数据场景，会稀释短文本的梯度权重，影响泛化效果。

（三）训练异常处理

训练中若loss持续升高，无需质疑数据难度，大概率是训练代码存在问题；正常情况下，7B/13B模型初始loss约2-3，72B模型约1-2，最终loss稳定在0.5左右为宜，过低会导致模型输出单一化。

四、SFT评估体系：3H原则与双轨评估方式

SFT评估需突破预训练的知识能力评估框架，聚焦"指令遵循"核心，遵循Helpfulness（有用性）、Honesty（诚实性）、Harmlessness（无害性）3H原则，或根据场景定制指令遵循、内容准确、无幻觉、安全性等指标。

机评方式：利用GPT-4、Claude等大模型作为评估器，参考Alignbench的prompt设计规范，通过提供参考答案提升打分准确性，避免模型因偏好导致的评估偏差（如倾向选择A选项或长文本）。
人评方式：针对关键场景或高价值任务，由人工对模型回复的各维度进行打分，结合机评结果形成综合评估结论。

评估核心价值在于定位模型短板，当某case得分下降时，可通过维度拆解明确是指令理解、内容准确性还是安全性问题，进而反向优化训练数据。

五、SFT实践核心要点总结

SFT的成功关键在于"不贪多、重精准"：数据上以质量和多样性为核心，避免盲目追求量级；训练中聚焦指令遵循能力，不强行注入知识；参数设置贴合模型规模与数据特点，多轮对话场景需优化loss计算逻辑；评估体系需兼顾全面性与可解释性，实现训练与优化的闭环。

随着大模型技术的发展，SFT已形成"数据飞轮+轻量化训练+精准评估"的成熟范式，成为快速适配特定任务、提升模型实用价值的核心技术路径。