近端策略优化算法 - 近端策略优化算法技术,学习,经验文章

人类发明了工具

1 年前

【强化学习】PPO（Proximal Policy Optimization，近端策略优化）算法PPO（Proximal Policy Optimization，近端策略优化）是强化学习中一种高效、稳定、易于实现的策略梯度方法，属于基于策略的方法。它由 OpenAI 在 2017 年提出，目的是在保持性能的同时简化实现复杂度。