技术栈
基线
云端FFF
1 年前
a2c
·
reinforce
·
baseline
·
策略梯度
·
基线
RL 实践(6)—— CartPole【REINFORCE with baseline & A2C】
本次实验使用 gym 自带的 CartPole-V0 环境。这是一个经典的一阶倒立摆控制问题,agent 的任务是通过左右移动保持车上的杆竖直,若杆的倾斜度数过大,或者车子离初始位置左右的偏离程度过大,或者坚持时间到达 200 帧,则游戏结束