技术栈

策略网络

nju_spy
2 天前
人工智能·强化学习·共轭梯度法·策略网络·trpo·sb3_contrib·breakout游戏
深度强化学习 TRPO 置信域策略优化实验(sb3_contrib / 手搓 + CartPole-v1 / Breakout-v5)https://github.com/spy-ban/Reinforcement-Learning/tree/main/TRPO
nju_spy
4 个月前
强化学习·南京大学·alphago·蒙特卡洛树搜索·策略网络·价值网络·随机梯度算法
王树森深度强化学习DRL(三)围棋AlphaGo+蒙特卡洛深度强化学习(5_5):AlphaGo_哔哩哔哩_bilibili蒙特卡洛 Monte Carlo_哔哩哔哩_bilibili
我是有底线的