【LLM进阶-后训练&部署】2. 常见的全参数微调SFT方法

以下是目前业界在全参微调（SFT）方法论上的几个深度前沿分支：

前置概念 ：
Distilling System 2 into System 1 (用CoT、思考模型的推理过程去掉，只保留最终答案来构造QA进行蒸馏训练)

System 1 是指对给定的输入直接给出答案，而不产生中间tokens。
System 2 是指通过产生中间tokens来增强模型表现的方式，包括进行搜索、多次prompt等。比如Chain-of-Thoughts、Rephrase and Respond、Branch-Solve-Merge等。

一、 Fast-Slow Thinking SFT（快慢思考 / System 2 微调）

受诺贝尔奖得主丹尼尔·卡尼曼的《思考，快与慢》以及 OpenAI o1 模型的启发，业界开始对模型进行 System 2（慢思考） 的全参微调。这种 SFT 不再只关注"最终答案"，而是强迫模型学习"思考的过程"。

Long CoT（长思维链）微调
- 数据形态 ：训练数据被重构为包含隐式或显式思考区间的格式。模型在输出最终答案前，必须先输出 <think> ... </think> 标签，在标签内进行长篇的逻辑拆解、多假设探索（Multi-Solution Exploration），甚至自我否定和修正。
- 训练目的：让模型学会"三思而后行"，彻底改变此前生成下一个 Token 时"拍脑袋直答"的习惯，大幅提升数学、代码等逻辑密集型任务的准确率。
Rejection Sampling Fine-Tuning (RFT / 拒绝采样微调)
- 数据获取难题：极其复杂的慢思考数据很难由人工标注。
- SFT 新解法 ：给定一个复杂问题，让待训练模型自己生成几十上百条不同的"思考-回答"路径。利用编译器（针对代码）或规则验证器（针对数学）自动测试或教师模型（针对主观性问题），只保留全对且步骤最清晰的那条路径 。然后将这些高质量的内部产出作为全新的 SFT 数据，再次对模型进行全参微调。这种"用模型自身最优秀的产出训练自己"的方法，可以尽可能规避小尺寸模型强行学习大尺寸模型思路与答案的困境------难以学会或者需要更大批量数据才能学会。
自适应快慢思考切换 (Adaptive Fast/Slow Thinking)
- 痛点：如果模型对所有问题（比如"你好"）都进行长篇大论的慢思考，会极大浪费算力且延迟极高。
- 前沿 SFT 方案 ：业界（如华为的 openPangu、OThink-R1 等研究）通过特殊的 SFT 数据配比，教导模型学会 "难度感知" 。在微调数据中，对简单问题直接输出答案（System 1），对复杂问题才调用 <think> 标签（System 2）。通过这种双模混合 SFT，模型可以在推理时自动无缝切换快慢挡。建议学习 Qwen3混合思考(人为控制是否思考)-＞字节AdaCoT(自主决定是否思考)-＞清华AdaThinking(自主决定是否思考)。

二、 Agentic SFT（智能体与工具调用微调）

为了让大模型从"聊天机器人"升级为能操作外部世界的"数字员工"，Agentic SFT 致力于赋予模型 API 调用、环境感知和多步规划能力。

ReAct 格式微调 (Reasoning + Acting)
- 数据范式 ：在 SFT 数据中，Prompt 会包含一大串外部工具的 JSON Schema 定义。模型的输出必须被严格规约为 [Thought (思考)] -> [Action (调用什么工具以及参数)] ->[Observation (等待外部系统返回结果)] -> [Final Answer (总结答案)] 的多轮交织格式。注意Observation部分内容必须mask掉，为环境真实反馈填充内容，绝不能是模型自己幻觉生成，不mask的话训出来的模型会产生很多幻觉。
- 核心挑战 ：这种微调极度考验模型的格式遵从能力 （不能编造不存在的工具）和参数提取能力（能准确从用户自然语言中提取 API 需要的参数）。
状态维持与深度研究范式 (Iterative Deep-Research)
- 传统的 Agentic SFT 只是把工具调用的历史不断追加到上下文里，很容易导致上下文爆炸和模型分心。
- 前沿方案 ：目前的顶级 SFT 训练（如通义 DeepResearch 等）开始引入"工作区（Workspace）"和"阶段性报告（Report）"的概念。SFT 数据中会训练模型每调用几次工具后，就主动生成一份"阶段性总结摘要"，并清空前面冗余的网页爬取乱码。这教会了模型在长线任务中管理自己的内存。
推理与工具使用的解耦微调 (Disentangled Tuning)
- 业界发现，模型在疯狂学习"特定 JSON 工具格式"时，其原本的通用自然语言推理能力可能会下降（即"格式污染"）。目前的进阶玩法是在 SFT 时将工具调用的 Token 和纯逻辑推理的 Token 在底层路由到不同的网络模块中去更新，保证 Agent 能力与通用能力互不干扰。

三、 System 2 Attention / Context Refinement SFT (抗干扰微调)

在实际业务场景（如 RAG 知识库问答）中，模型常常被检索出来的冗余文档或用户的误导性提示"带偏"。

SFT 方案 ：Meta 提出的 System 2 Attention (S2A) 理念。在全参微调的数据集中，刻意设计一种"分步处理"的范式：
1. 首先，强迫模型输出一段净化后的上下文："这段长文本中，只有 A 和 B 两个事实与用户的问题有关，其余都是噪声。"
2. 然后，再让模型基于自己净化的文本给出最终回答。
效果：这种微调极大地提升了模型的抗幻觉能力和面对恶意 Prompt（Jailbreak）时的鲁棒性。

四、 SFT 与 RL（强化学习）的融合边界

传统观点认为，预训练 -> SFT -> RL 是一条单向的流水线。但现在的 SFT 已经和 RL 深度绑定：

Cold-Start SFT（冷启动微调）：在进行类似 DeepSeek-R1 的大规模强化学习（PPO/GRPO）之前，必须先用大概 1万~5万条极其高质量的 Long CoT 或 Agentic 数据对模型进行全参 SFT。如果不做这一步，模型在强化学习阶段根本不知道什么是"反思"，会在庞大的动作空间中迷失。
蒸馏微调 (Distillation SFT)：用超大模型（如 671B 的 R1）在强化学习后生成的带有庞大思维链的数据，去对小模型（如 7B/8B）进行全参微调。这证明了仅仅通过高质量的 SFT，就可以把超大模型在 RL 阶段顿悟出的"System 2 推理范式"完美平移给小模型。