RLHF 基于人类反馈的强化学习简介

岁月标记2026-05-11 18:19

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是训练 AI 大模型的一种关键技术，核心思路是：让人类来"打分"或"排序"模型的输出，再用这些反馈去训练一个奖励模型，最后通过强化学习优化大模型的生成策略。

简单来说，流程通常分为三步：

监督微调（SFT）：先用高质量人工示范数据微调预训练模型，使其初步"会说话"。

训练奖励模型（RM）：让人类对同一问题的多个模型回答进行排序/打分，训练一个模型来预测"人类更喜欢哪个回答"。

强化学习优化（如 PPO）：用奖励模型的打分作为奖励信号，通过强化学习继续训练大模型，使其更倾向于生成人类偏好的回答。

RLHF 的目的是解决"损失函数难定义"的问题------比如"更有帮助、更安全、更真实"很难直接用数学公式写好，但通过人类判断+学习奖励函数，可让模型对齐人类价值观与意图。

它在 ChatGPT、Claude 等对话模型中起到关键作用，使输出更合规、有用、少有害内容。