trpo - trpo技术,学习,经验文章

nju_spy

7 个月前

深度强化学习 TRPO 置信域策略优化实验（sb3_contrib / 手搓 + CartPole-v1 / Breakout-v5）https://github.com/spy-ban/Reinforcement-Learning/tree/main/TRPO