技术栈
近端策略优化
阿杰学AI
2 天前
人工智能
·
ai
·
语言模型
·
自然语言处理
·
aigc
·
ppo
·
近端策略优化
AI核心知识45——大语言模型之PPO(简洁且通俗易懂版)
PPO 是 Proximal Policy Optimization(近端策略优化)的缩写。它是大语言模型在 RLHF(基于人类反馈的强化学习) 阶段中,用来具体执行“参数修改”的核心算法。
我是有底线的