【LLM基础研究】核心七:PPO

PPO(Proximal Policy Optimization)是大语言模型(LLM)对齐中主流的强化学习算法,通过裁剪机制稳定策略更新,结合奖励模型(RM)与参考模型(Reference Model)实现人类偏好对齐,典型用于 RLHF 流程(SFT 后微调);但因需同时维护策略、价值(Critic)、奖励和参考四类模型,显存开销大,近年在千亿级模型中正被 GRPO、DPO 等轻量替代。‌‌

HRL 优先用

长序列任务:机器人导航、机械臂多步骤组装、游戏闯关(分段完成目标)、奖励稀疏:只有最终成功才有奖励,中间无反馈。解决痛点:长时序稀疏奖励、大动作空间、多阶段复杂任务(导航、机器人操控)。

DRL 优先用

环境交互耗时、需要海量样本:自动驾驶仿真、大规模游戏 AI、大参数量强化学习模型训练。解决痛点:单环境采样慢、训练样本不足、大模型训练耗时过长。

分层强化学习 Hierarchical RL(HRL)从决策逻辑分层,把一个难任务拆成「高层宏观决策 + 低层动作执行」,属于算法层面改进,单卡也能跑。

分布式强化学习 Distributed RL(DRL)从计算资源拆分,多进程 / 多机器并行采集样本、梯度更新,属于工程训练架构,算法本身可以是 DQN/PPO/A3C 任意普通 RL。

相关推荐
Dola_Zou1 小时前
工业软件防破解避坑指南:CodeMeter 全流程入门与选型(下)
人工智能·安全·自动化·视觉检测·软件工程
云边云科技_云网融合1 小时前
AI 网关:律所数字化转型的 “安全守门人“ 与 “效率引擎“
人工智能·安全
hengsf1234561 小时前
Transformer初探
人工智能·深度学习·transformer
Resistance丶未来1 小时前
Pixelle-Video:AI全自动短视频引擎 接入API教程
人工智能·大模型·api·claude·deepseek·魔芋ai·pixelle-video
lqqjuly1 小时前
语言模型理论与术语(LLM Theory & Terminology)
人工智能·语言模型·自然语言处理
AI技趣星球1 小时前
就是我们日常使用的 Type-C 接口
人工智能
米云科技1 小时前
小红书客服软件支持多账号吗?米多客高效解决跨账号管理难题
大数据·人工智能
打码人的日常分享1 小时前
NLP和AI大模型应用方案
运维·人工智能·安全·系统安全·制造
俊哥V1 小时前
每日 AI 研究简报 · 2026-06-02
人工智能·ai