强化学习PPO和GRPO逻辑学习

之前的文章:《大规模语言模型从理论到实践》--强化学习(RLHF、PPO、DPO)_强化学习bop-CSDN博客

已经学习过强化学习了,但是理解上还是比较抽象,今天工作看到这里就再详细学习一下。

本笔记比较零散,是带着我疑惑的地方重点学习的。

PPO算法

PPO步骤理解

这里的Ut其实是奖励模型计算出来的。

PPO公式理解

PPO的缺点

PPO 的核心痛点是 "依赖绝对奖励模型 + 价值模型",导致标注成本高、适配推理任务难。

不同任务(如数学推理、对话生成)需定制不同奖励模型,PPO 难以实现通用对齐。

PPO 需多次采样生成轨迹数据。

PPO训练策略模型和奖励模型数据集

奖励模型数据集:

价值模型的V(t)是如何得来的

V(t)和参数Theta是需要训练更新的值。开始的 v (t) 确实是随机初始化的 Critic 网络给出的随机预测值,但这只是训练的起点 ------ 随着 Critic 不断用真实轨迹的回报修正自己,v (t) 会从 "随机猜测" 逐渐收敛到能准确反映状态价值的 "有效预测"。

GRPO

GRPO 就解决了这个问题:它不需要奖励模型给 "绝对分数",只需要把 "同一道题的 3 种解法放在一起对比"(比如 "4+2=6" 比 "4+2=7" 好,"步骤详细的解法" 比 "步骤简略的解法" 好),就能让模型学会改进 ------ 相当于学生不用做上万道题,只需要对比几道题的解法优劣,就能学会知识点,效率高得多。

相关推荐
公考指南针3 分钟前
公务员面试怎么准备?2026 结构化面试流程、答题训练和备考工具测评
经验分享·学习·面试
.千余6 分钟前
【C++】C++继承入门(上):继承语法与基本特性详解
开发语言·c++·笔记·学习·其他
承渊政道7 分钟前
【MySQL数据库学习】MySQL基本查询(下)
数据库·学习·mysql·leetcode·bash·数据库开发·数据库系统
skywalk816313 分钟前
段言的设计文档:中文编程赛道的竞争格局,谁在牌桌上?
开发语言·学习·编程
段一凡-华北理工大学19 分钟前
工业领域的Hadoop架构学习~系列文章24:adoop工业应用总结与展望 - 技术路线图与最佳实践
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
一锅炖出任易仙32 分钟前
创梦汤锅学习日记day30
学习·ai·ue5·游戏引擎
AOwhisky1 小时前
Redis 学习笔记(第二期):核心数据类型与消息队列实战
运维·数据库·redis·笔记·学习·云计算
keira6741 小时前
个人健康日程表(小时级行为系统)
学习·生活
YangYang9YangYan1 小时前
专科大数据技术学习数据分析的价值分析
大数据·学习·数据分析
段一凡-华北理工大学1 小时前
工业领域的Hadoop架构学习~系列文章23:物流行业Hadoop应用实践 - 智能物流的数字化引擎
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁