技术栈

sb3_contrib

nju_spy
15 小时前
人工智能·强化学习·共轭梯度法·策略网络·trpo·sb3_contrib·breakout游戏
深度强化学习 TRPO 置信域策略优化实验(sb3_contrib / 手搓 + CartPole-v1 / Breakout-v5)https://github.com/spy-ban/Reinforcement-Learning/tree/main/TRPO
我是有底线的