RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)是训练 AI 大模型的一种关键技术,核心思路是:让人类来"打分"或"排序"模型的输出,再用这些反馈去训练一个奖励模型,最后通过强化学习优化大模型的生成策略。
简单来说,流程通常分为三步:
监督微调(SFT):先用高质量人工示范数据微调预训练模型,使其初步"会说话"。
训练奖励模型(RM):让人类对同一问题的多个模型回答进行排序/打分,训练一个模型来预测"人类更喜欢哪个回答"。
强化学习优化(如 PPO):用奖励模型的打分作为奖励信号,通过强化学习继续训练大模型,使其更倾向于生成人类偏好的回答。
RLHF 的目的是解决"损失函数难定义"的问题------比如"更有帮助、更安全、更真实"很难直接用数学公式写好,但通过人类判断+学习奖励函数,可让模型对齐人类价值观与意图。
它在 ChatGPT、Claude 等对话模型中起到关键作用,使输出更合规、有用、少有害内容。