技术栈
trpo
nju_spy
15 小时前
人工智能
·
强化学习
·
共轭梯度法
·
策略网络
·
trpo
·
sb3_contrib
·
breakout游戏
深度强化学习 TRPO 置信域策略优化实验(sb3_contrib / 手搓 + CartPole-v1 / Breakout-v5)
https://github.com/spy-ban/Reinforcement-Learning/tree/main/TRPO
我是有底线的