【LLM基础研究】核心七:PPO

PPO(Proximal Policy Optimization)是大语言模型(LLM)对齐中主流的强化学习算法,通过裁剪机制稳定策略更新,结合奖励模型(RM)与参考模型(Reference Model)实现人类偏好对齐,典型用于 RLHF 流程(SFT 后微调);但因需同时维护策略、价值(Critic)、奖励和参考四类模型,显存开销大,近年在千亿级模型中正被 GRPO、DPO 等轻量替代。‌‌

HRL 优先用

长序列任务:机器人导航、机械臂多步骤组装、游戏闯关(分段完成目标)、奖励稀疏:只有最终成功才有奖励,中间无反馈。解决痛点:长时序稀疏奖励、大动作空间、多阶段复杂任务(导航、机器人操控)。

DRL 优先用

环境交互耗时、需要海量样本:自动驾驶仿真、大规模游戏 AI、大参数量强化学习模型训练。解决痛点:单环境采样慢、训练样本不足、大模型训练耗时过长。

分层强化学习 Hierarchical RL(HRL)从决策逻辑分层,把一个难任务拆成「高层宏观决策 + 低层动作执行」,属于算法层面改进,单卡也能跑。

分布式强化学习 Distributed RL(DRL)从计算资源拆分,多进程 / 多机器并行采集样本、梯度更新,属于工程训练架构,算法本身可以是 DQN/PPO/A3C 任意普通 RL。

相关推荐
To_OC7 小时前
搞懂 Token 和 Embedding 后,我终于明白大模型是怎么 "读" 文字的
人工智能·llm·agent
冬奇Lab10 小时前
每日一个开源项目(第139篇):Voicebox - 本地运行的开源 ElevenLabs 替代品
人工智能·开源·资讯
冬奇Lab10 小时前
Skill 系列(03):Skill 设计范式——5 个模式让输出从混沌到可预测
人工智能·开源·agent
IT_陈寒12 小时前
Python搞不定字符串编码?这破玩意坑我两小时!
前端·人工智能·后端
大模型真好玩13 小时前
什么是Loop Engineering?最通俗易懂的Loop Engineering核心概念
人工智能·agent·deepseek
叁两14 小时前
前端转型AI Agent该如何学习?(前置篇)
前端·人工智能·node.js
LaiYoung_14 小时前
🎁 送你一套超好用超实用的 FE AI-Coding Skills
前端·人工智能·开源
ZzT16 小时前
怎么做才不会被 AI 替代?
人工智能·程序员
道友可好16 小时前
从今天开始:你的第一个 Harness Engineering 实践
前端·人工智能·后端