RFT 强化微调 - 技术栈

OpenAI在今天发布的新技术，RFT结合了SFT和RL的优化算法，与传统的监督微调不同，强化微调旨在通过任务训练让模型掌握复杂推理能力，而不仅仅是"记住答案"。

什么是强化微调

强化微调是通过高质量任务数据和参考答案优化大语言模型的推理能力的方法。

• 核心区别：与传统的监督微调（SFT）不同，RFT 并非简单地"教模型记住答案"，而是引导模型在复杂问题中学会推理，从而更准确地解决任务。

• 技术构成：RFT 融合了 SFT 的监督学习基础和强化学习（RL）的奖励机制，通过多轮自我优化训练，使模型能生成更高质量的答案。

例如，在医疗领域，RFT 可通过患者症状推断潜在的遗传基因，而不仅仅是回忆训练数据中的信息。这种能力对于处理复杂推理任务尤为重要。

Sam Altman 认为强化微调 Reinforcement Fine-Tuning是2024最牛的技术进展，能帮助大家搞定专业模型的训练。

RFT 的实现包括以下几个关键步骤：

1. 数据准备：训练与验证数据集

• 训练数据集：提供任务样本（如问题与参考答案）用于模型学习。

如图所示训练数据：病例报告（包含基本信息、症状以及没有的症状）、指令和正确答案。

• 验证数据集：内容与训练集不同，用于测试模型的泛化能力，避免模型"记住答案"。

2. 评分器（Grader）机制

在强化过程中，评分器根据模型输出与正确答案的匹配程度进行评分（0~1）。

• 例如，若正确答案出现在模型输出的第 2 位，评分器可能给出 0.7 的分数。

• 不同任务类型可配置特定的评分器，甚至未来将支持自定义评分标准。

3. 强化训练

• 模型通过自定义批量大小、学习率、epoch 数等参数优化训练策略。

• 在训练过程中，模型输出的每条推理路径会通过评分器自动评估并调整，以实现更优表现。

例如，OpenAI 的 o1-mini 模型在强化微调后，其推理准确性显著提升，甚至超越了更大规模的 o1 模型。

可以看出模型在验证集上的得分越来越高。

这个经过强化微调的 o1-mini 的表现在各种维度都比O1要强。

强化微调为大语言模型训练带来了以下显著优势：

1. 更强的推理能力

RFT 通过不断优化推理路径，让模型在复杂领域中表现出色，尤其适合解决有明确正确答案的任务。例如，在数学推理问题上，RFT 能够提高模型的准确率。

2. 小模型的高效表现

实验表明，经过 RFT 训练的小规模模型（如 o1-mini），在多个指标上超越未经强化微调的大模型。这使得专业化模型的训练成本大幅降低。

3. 灵活适配多任务场景

RFT 技术适用于医疗、法律、保险、工程等多种专业领域。理论上，只要有合适的数据和评分器，就可以训练出定制化的专业 AI 助手。

目前，OpenAI 正在对 RFT 进行 Alpha 测试，主要面向与专家团队协作处理复杂任务的机构用户。随着技术的成熟，个人用户预计将在 2025 年体验到这一突破性技术。

强化微调（REFT）的研究方向最早由字节跳动提出，并在 2024 年 ACL 顶会上通过论文《REFT: Reasoning with REinforced Fine-Tuning》详细阐述。通过多条推理路径的学习和优化，显著提升了模型在推理任务中的表现。。

论文中提到，REFT 技术分为两个阶段：

• 预热阶段（Warm-up）：使用 SFT 方法为模型提供基础推理能力，让模型能够生成初步的合理响应。

• 强化学习阶段：采用 PPO（Proximal Policy Optimization）算法，通过奖励机制优化模型输出质量。

这项技术的最初目标是提升模型在数学推理任务上的表现，并取得了显著成果。例如，在 GSM8K 数据集上的测试中，经过 REFT 训练的模型准确率较 SFT 提升了近 10 个百分点。