【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程

【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程

RLHF训练的三个步骤

步骤1:收集数据与有监督训练策略

  1. 从数据集中采样的prompt提问

  2. 数据标注者(人工)给出最合理的回答,组成问答机制对 < Q , A > <Q,A> <Q,A>

  3. 利用问答机制通过SFT有监督精调GPT3.5,得到策略policy

步骤2:收集数据训练奖励模型

  1. 继续采样prompt,将prompt输入一个或多个 LLM 生成对比数据。他们产生了几对提示-答案 < Q , A > <Q,A> <Q,A>
  2. 人类标注者根据模型回答的质量,对回答的好坏进行排序(收集人类反馈)
  3. 得到排序的数据集后,训练奖励模型,奖励模型能够根据输入给出一个标量奖励值,代表人类对这些输出或行为的偏好
  4. 经过充分的训练,奖励模型可以在没有人为干预的情况下对智能体的输出或行为进行打分,以量化其符合人类偏好的程度

    图中的ELO是指建立其人类对于输出的相对排名

步骤3:结合奖励模型利用强化学习算法如PPO算法来优化策略

  1. 再次采样prompt,利用PPO模型(由前面第一步得到的策略初始化)产生结果得到 < Q , A > <Q,A> <Q,A>
  2. 将 < Q , A > <Q,A> <Q,A>输入奖励模型,产生打分(奖励)
  3. 利用奖励信号评估策略的输出,通过强化学习算法来优化策略(比如 PPO模型)
  4. 创建一个循环来优化微调策略:通过新采样的数据,在强化学习过程中,策略会生成新的输出或行为,并根据奖励模型的反馈进行迭代优化。这个过程会不断重复,直到模型的性能达到满意的水平

    policy是给GPT输入文本后输出结果的过程,即GPT推理的过程

整体流程图:

参考内容

1. HuggingFace官方博客:Illustrating Reinforcement Learning from Human Feedback (RLHF)
2. B站里看的一个视频:RLHF大模型加强学习机制原理介绍

相关推荐
琥珀食酒社13 小时前
菜鸟找到舒适区
大数据·人工智能
猿类崛起@13 小时前
2025秋招LLM大模型多模态面试题:110道大模型面试常见问题及答案,助你拿下AI工程师岗位!
人工智能·机器学习·ai·性能优化·大模型·prompt·大模型训练
MonkeyKing_sunyuhua13 小时前
量化只支持a8w8和w4a8,其中a8w8和w4a8是什么意思?
人工智能·算法
霍格沃兹测试开发学社13 小时前
被裁后,我如何实现0到3份大厂Offer的逆袭?(内附面试真题)
人工智能·selenium·react.js·面试·职场和发展·单元测试·压力测试
颜颜yan_13 小时前
CANN异构计算架构深度解析:打造高效AI开发利器
人工智能·架构·昇腾·cann
paopao_wu13 小时前
人脸检测与识别-InsightFace:向量相似性搜索Faiss
人工智能·yolo·目标检测·ocr·faiss
GISer_Jing13 小时前
SSE Conf大会分享——UTOO WASM:AI时代的浏览器原生极速研发套件
前端·人工智能·架构·wasm
黑客思维者13 小时前
LLM底层原理学习笔记:上下文窗口扩展技术如何突破记忆瓶颈,解锁大模型的长文本理解力
笔记·学习·llm·长文本·上下文窗口
摇滚侠13 小时前
零基础小白自学 Git_Github 教程,Git 分支概念,笔记07
笔记·git·github
ziwu13 小时前
【动物识别系统】Python+TensorFlow+Django+人工智能+深度学习+卷积神经网络算法
后端·深度学习·图像识别