RFT 强化微调

OpenAI在今天发布的新技术,RFT结合了SFT和RL的优化算法,与传统的监督微调不同,强化微调旨在通过任务训练让模型掌握复杂推理能力,而不仅仅是"记住答案"。

什么是强化微调

强化微调是通过高质量任务数据和参考答案优化大语言模型的推理能力的方法。

核心区别:与传统的监督微调(SFT)不同,RFT 并非简单地"教模型记住答案",而是引导模型在复杂问题中学会推理,从而更准确地解决任务。

技术构成:RFT 融合了 SFT 的监督学习基础和强化学习(RL)的奖励机制,通过多轮自我优化训练,使模型能生成更高质量的答案。

例如,在医疗领域,RFT 可通过患者症状推断潜在的遗传基因,而不仅仅是回忆训练数据中的信息。这种能力对于处理复杂推理任务尤为重要。

Sam Altman 认为强化微调 Reinforcement Fine-Tuning是2024最牛的技术进展,能帮助大家搞定专业模型的训练。

RFT如何实现

RFT 的实现包括以下几个关键步骤:

1. 数据准备:训练与验证数据集

训练数据集:提供任务样本(如问题与参考答案)用于模型学习。

如图所示训练数据:病例报告(包含基本信息、症状以及没有的症状)、指令和正确答案。

验证数据集:内容与训练集不同,用于测试模型的泛化能力,避免模型"记住答案"。

2. 评分器(Grader)机制

在强化过程中,评分器根据模型输出与正确答案的匹配程度进行评分(0~1)。

• 例如,若正确答案出现在模型输出的第 2 位,评分器可能给出 0.7 的分数。

• 不同任务类型可配置特定的评分器,甚至未来将支持自定义评分标准。

3. 强化训练

• 模型通过自定义批量大小、学习率、epoch 数等参数优化训练策略。

• 在训练过程中,模型输出的每条推理路径会通过评分器自动评估并调整,以实现更优表现。

例如,OpenAI 的 o1-mini 模型在强化微调后,其推理准确性显著提升,甚至超越了更大规模的 o1 模型。

可以看出模型在验证集上的得分越来越高。

这个经过强化微调的 o1-mini 的表现在各种维度都比O1要强。

RFT 的优势

强化微调为大语言模型训练带来了以下显著优势:

1. 更强的推理能力

RFT 通过不断优化推理路径,让模型在复杂领域中表现出色,尤其适合解决有明确正确答案的任务。例如,在数学推理问题上,RFT 能够提高模型的准确率。

2. 小模型的高效表现

实验表明,经过 RFT 训练的小规模模型(如 o1-mini),在多个指标上超越未经强化微调的大模型。这使得专业化模型的训练成本大幅降低。

3. 灵活适配多任务场景

RFT 技术适用于医疗、法律、保险、工程等多种专业领域。理论上,只要有合适的数据和评分器,就可以训练出定制化的专业 AI 助手。

目前,OpenAI 正在对 RFT 进行 Alpha 测试,主要面向与专家团队协作处理复杂任务的机构用户。随着技术的成熟,个人用户预计将在 2025 年体验到这一突破性技术。

RFT来源

强化微调(REFT)的研究方向最早由字节跳动提出,并在 2024 年 ACL 顶会上通过论文《REFT: Reasoning with REinforced Fine-Tuning》详细阐述。通过多条推理路径的学习和优化,显著提升了模型在推理任务中的表现。。

论文中提到,REFT 技术分为两个阶段:

预热阶段(Warm-up):使用 SFT 方法为模型提供基础推理能力,让模型能够生成初步的合理响应。

强化学习阶段:采用 PPO(Proximal Policy Optimization)算法,通过奖励机制优化模型输出质量。

这项技术的最初目标是提升模型在数学推理任务上的表现,并取得了显著成果。例如,在 GSM8K 数据集上的测试中,经过 REFT 训练的模型准确率较 SFT 提升了近 10 个百分点。

相关推荐
掘金安东尼9 分钟前
Google+禁用“一次性抓取100条搜索结果”,SEO迎来变革?
人工智能
FIN666815 分钟前
射频技术领域的领航者,昂瑞微IPO即将上会审议
前端·人工智能·前端框架·信息与通信
小麦矩阵系统永久免费25 分钟前
短视频矩阵系统哪个好用?2025最新评测与推荐|小麦矩阵系统
大数据·人工智能·矩阵
Mr.Lee jack28 分钟前
【vLLM】源码解读:高性能大语言模型推理引擎的工程设计与实现
人工智能·语言模型·自然语言处理
IT_陈寒35 分钟前
Java性能优化:这5个Spring Boot隐藏技巧让你的应用提速40%
前端·人工智能·后端
MicroTech202543 分钟前
微算法科技(NASDAQ:MLGO)开发延迟和隐私感知卷积神经网络分布式推理,助力可靠人工智能系统技术
人工智能·科技·算法
喜欢吃豆1 小时前
多轮智能对话系统架构方案(可实战):从基础模型到自我优化的对话智能体,数据飞轮的重要性
人工智能·语言模型·自然语言处理·系统架构·大模型·多轮智能对话系统
文火冰糖的硅基工坊1 小时前
[嵌入式系统-83]:算力芯片的类型与主流架构
人工智能·重构·架构
视觉语言导航3 小时前
ICRA-2025 | 阿德莱德机器人拓扑导航探索!TANGO:具有局部度量控制的拓扑目标可穿越性感知具身导航
人工智能·机器人·具身智能
西猫雷婶7 小时前
CNN卷积计算
人工智能·神经网络·cnn