技术栈

actor-critic

i.ajls
1 天前
人工智能·深度学习·机器学习·actor-critic
强化学习入门-3(AC)本环境是OpenAI Gym提供的一个经典控制环境。官网链接:https://gymnasium.farama.org/environments/classic_control/cart_pole/
红烧code
2 年前
强化学习·policy gradient·actor-critic
VPG算法首先来看经典的策略梯度REINFORCE算法:在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt,与动作概率对数相乘,作为误差反向传播,有以下几个特点:
我是有底线的