技术栈

a2c

云端FFF
2 年前
a2c·reinforce·baseline·策略梯度·基线
RL 实践(6)—— CartPole【REINFORCE with baseline & A2C】本次实验使用 gym 自带的 CartPole-V0 环境。这是一个经典的一阶倒立摆控制问题,agent 的任务是通过左右移动保持车上的杆竖直,若杆的倾斜度数过大,或者车子离初始位置左右的偏离程度过大,或者坚持时间到达 200 帧,则游戏结束