强化学习算法 - 强化学习算法技术,学习,经验文章

夔曦

6 个月前

【无标题】神经网络（两个网络：目标网络、主网络）、经验回放以gym中的车杆CartPole-v1为例，环境设置从gym中获取，只需关注算法本身。该环境存在四种状态：车位置(Cart Position) 、车速(Cart Velocity) 、杆子的角度(Pole Angle) 、角速度(Pole Angular Velocity)，两种动作：0向左、1向右