RLHF 基于人类反馈的强化学习简介

RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)是训练 AI 大模型的一种关键技术,核心思路是:让人类来"打分"或"排序"模型的输出,再用这些反馈去训练一个奖励模型,最后通过强化学习优化大模型的生成策略。

简单来说,流程通常分为三步:

监督微调(SFT):先用高质量人工示范数据微调预训练模型,使其初步"会说话"。

训练奖励模型(RM):让人类对同一问题的多个模型回答进行排序/打分,训练一个模型来预测"人类更喜欢哪个回答"。

强化学习优化(如 PPO):用奖励模型的打分作为奖励信号,通过强化学习继续训练大模型,使其更倾向于生成人类偏好的回答。

RLHF 的目的是解决"损失函数难定义"的问题------比如"更有帮助、更安全、更真实"很难直接用数学公式写好,但通过人类判断+学习奖励函数,可让模型对齐人类价值观与意图。

它在 ChatGPT、Claude 等对话模型中起到关键作用,使输出更合规、有用、少有害内容。

相关推荐
ZhengEnCi9 小时前
09bad-斯坦福CS336作业一-构建优化器
人工智能
ZhengEnCi9 小时前
09bac-斯坦福CS336作业一-实现训练损失计算
人工智能
冬奇Lab10 小时前
Skill 系列(01):Skill 评测体系——如何量化一个 AI Skill 的质量
人工智能
IT_陈寒13 小时前
Redis内存爆了,原来我漏掉了这个致命配置
前端·人工智能·后端
用户35218024547514 小时前
🎆从 Prompt 到 Skill:让 Spring AI Agent 学会"装新技能"
人工智能·spring boot·ai编程
米小虾15 小时前
手把手教你搭建第一个生产级AI Agent:从选型到实战的完整指南
人工智能·agent
任沫15 小时前
Agent之Function Call
javascript·人工智能·go
米小虾15 小时前
2026年AI Agent全面爆发:从开源生态到企业级应用的进化之路
人工智能·agent
用户69190268133915 小时前
Vibe Coding 开发项目的基本范式
人工智能·设计模式·代码规范
To_OC15 小时前
别再跟 AI 死磕 prompt 了,我写了个 Loop 让它自己改到满意为止
人工智能·aigc·agent