RLHF 基于人类反馈的强化学习简介

RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)是训练 AI 大模型的一种关键技术,核心思路是:让人类来"打分"或"排序"模型的输出,再用这些反馈去训练一个奖励模型,最后通过强化学习优化大模型的生成策略。

简单来说,流程通常分为三步:

监督微调(SFT):先用高质量人工示范数据微调预训练模型,使其初步"会说话"。

训练奖励模型(RM):让人类对同一问题的多个模型回答进行排序/打分,训练一个模型来预测"人类更喜欢哪个回答"。

强化学习优化(如 PPO):用奖励模型的打分作为奖励信号,通过强化学习继续训练大模型,使其更倾向于生成人类偏好的回答。

RLHF 的目的是解决"损失函数难定义"的问题------比如"更有帮助、更安全、更真实"很难直接用数学公式写好,但通过人类判断+学习奖励函数,可让模型对齐人类价值观与意图。

它在 ChatGPT、Claude 等对话模型中起到关键作用,使输出更合规、有用、少有害内容。

相关推荐
Ian在掘金1 小时前
从零实现一个 PDF 智能问答系统
人工智能·langchain
飞Link1 小时前
智能体时代的“紧箍咒”:深度解析 Agent 治理架构与 AI 杀伤开关
人工智能·架构
飞Link1 小时前
2000 亿砸向算力:字节跳动 AI 基建跨越,后端与运维的“万亿 Token”生死战
运维·人工智能
zhangfeng11332 小时前
小龙虾 wordbuddy 安装浏览器控制器 agent-browser npm install -g agent-browse
前端·人工智能·npm·node.js
阿里云大数据AI技术2 小时前
一条 SQL 生成广告:Hologres 如何实现素材生成到投放分析一体化
人工智能·sql
liudanzhengxi2 小时前
GitSubmodule避坑全攻略
人工智能·新人首发
用户425210800602 小时前
Claude Code Linux 服务器部署与配置
人工智能
OJAC1112 小时前
学过Python却不敢投AI岗,他最后拿下12K offer
人工智能
Bigger2 小时前
因为看不懂小棉袄的画,我写了个 AI 程序帮我“翻译”她的世界
前端·人工智能·ai编程