【译】微调与人工引导：语言模型调整中的 SFT 和 RLHF

markvivv2024-04-16 10:32

原文地址：Fine-Tuning vs. Human Guidance: SFT and RLHF in Language Model Tuning

本文主要对监督微调（SFT, Supervised Fine Tuning ）和人类反馈强化学习（RLHF, Reinforcement Learning from Human Feedback）进行简要比较。

方法

RLHF 采用迭代方法：利用人类对语言模型 (LLM) 输出的反馈来训练奖励模型。然后利用该模型通过强化学习来提高 LLM 的性能。然而，这种方法非常复杂，因为它需要创建和训练一个独特的奖励模型。这项任务往往极具挑战性，因为它涉及管理人类的各种偏好并解决偏差问题。
SFT 涉及直接训练，即直接在精心策划的数据集上完善语言模型 (LLM)，该数据集包含描述目标任务或领域的注释示例。这种方法比较简单，只需要标注数据和传统的训练方法。

复杂性

由于训练奖赏模型并与之交互需要大量资源，因此 RLHF 的计算成本往往很高。此外，还存在不稳定的风险，因为 RL 中的优化对奖励模型的不准确性很敏感，可能会导致意想不到的行为。
另一方面，SFT 的计算成本更低，因为与 RLHF 相比，它的训练速度通常更快。此外，它还更稳定，因为它不容易出现意外行为，因为它直接在标记数据上进行训练。

结果

当奖励模型真正代表人的价值观时，RLHF 有可能产生更准确、更理想的输出，从而更符合人的偏好。不过，这种方法往往会限制输出的多样性，导致创造力和惊喜减少，因为语言模型会努力使奖励信号最大化。
另一方面，虽然与 RLHF 相比，SFT 在某些任务上的性能可能较低，尤其是在复杂的任务上，但它通常能保持较高的输出多样性。这种多样性源于语言模型固有的灵活性，使其能够产生更广泛的创造性反应。

需要考虑的其他因素

数据质量是这两种方法的基础，但 RLHF 对奖励模型中存在的偏差和不准确性尤为敏感。确保高质量、多样化的标记数据对两种方法的成功都至关重要，但对 RLHF 而言尤为关键，因为它依赖于准确的人类反馈来塑造奖励模型和后续学习过程。
在要求严格符合人类价值观的特定应用中，例如制作法律文件，RLHF 可能是首选方法，因为它能够根据反馈驱动的奖励模型精确地遵循这些价值观。相反，对于优先考虑创造性和多样化输出的任务，如诗歌创作或其他开放式的工作，SFT 可能更适合，因为它保留了语言模型固有的灵活性，允许产生更多样、更富有想象力的结果。
最近的研究趋势表明，有了高质量的数据，监督微调（SFT）在某些情况下有可能取得与人类反馈强化学习（RLHF）相当甚至更优的结果。这一发现将 SFT 定位为这些特定情况下更直接、更高效的替代方案，展示了其在特定条件下，在配备高质量数据的情况下与 RLHF 相媲美或超越 RLHF 的能力。

在 RLHF 和 SFT 之间做出选择取决于各种因素，如任务的性质、可用资源和预期结果。每种方法都有自己的优缺点，因此必须了解它们之间的差异，以便有效地微调语言模型（LLM）。评估具体要求和每种方法的优缺点，有助于根据手头的任务做出明智的决定。

我相信这篇简明扼要的解释已经阐明了 RLHF 和 SFT 之间的区别，并使您能够做出正确的选择。

上一篇：Spring MVC found on classpath, which is incompatible with Spring Cloud Gateway.

下一篇：0x02. 也许你该用 NeoVim 写 Rust-使用插件

热门推荐

01GitHub 镜像站点 02BongoCat - 跨平台键盘猫动画工具 03UV安装并设置国内源 04GitLab 零基础入门指南：从安装到项目管理全流程 05Linux下V2Ray安装配置指南 06KGG转MP3工具|非KGM文件|解密音频 072025软件测试面试八股文（含答案+文档）08两千字总结：Codex 国内如何安装和使用的教程，以及如何设置中文回答 09NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）