baseline - baseline技术,学习,经验文章

云端FFF

3 年前

RL 实践（6）—— CartPole【REINFORCE with baseline & A2C】本次实验使用 gym 自带的 CartPole-V0 环境。这是一个经典的一阶倒立摆控制问题，agent 的任务是通过左右移动保持车上的杆竖直，若杆的倾斜度数过大，或者车子离初始位置左右的偏离程度过大，或者坚持时间到达 200 帧，则游戏结束