技术栈
强化学习算法
夔曦
3 小时前
python
·
强化学习算法
【无标题】
神经网络(两个网络:目标网络、主网络)、经验回放以gym中的车杆CartPole-v1为例,环境设置从gym中获取,只需关注算法本身。 该环境存在四种状态:车位置(Cart Position) 、车速(Cart Velocity) 、杆子的角度(Pole Angle) 、角速度(Pole Angular Velocity),两种动作:0向左、1向右
我是有底线的