技术栈

a2c

勾股导航
21 天前
人工智能·强化学习·a2c
A2C算法1.算法描述A2C是一种同步式策略梯度算法,核心是通过优势函数(Â(s,a) = Q(s,a) - V(s))替代传统回报值,显著降低策略梯度的方差。
云端FFF
3 年前
a2c·reinforce·baseline·策略梯度·基线
RL 实践(6)—— CartPole【REINFORCE with baseline & A2C】本次实验使用 gym 自带的 CartPole-V0 环境。这是一个经典的一阶倒立摆控制问题,agent 的任务是通过左右移动保持车上的杆竖直,若杆的倾斜度数过大,或者车子离初始位置左右的偏离程度过大,或者坚持时间到达 200 帧,则游戏结束
我是有底线的