近端策略优化 - 近端策略优化技术,学习,经验文章

阿杰学AI

8 个月前

AI核心知识45——大语言模型之PPO（简洁且通俗易懂版）PPO 是 Proximal Policy Optimization（近端策略优化）的缩写。它是大语言模型在 RLHF（基于人类反馈的强化学习）阶段中，用来具体执行“参数修改”的核心算法。