技术栈
actor-critic
nju_spy
21 天前
人工智能
·
python
·
强化学习
·
actor-critic
·
多臂老虎机
·
汤普森采样
·
探索与利用
动手学强化学习上交张伟楠(一)导论 + 多臂老虎机 MAB(ε-greedy+上置信界+汤普森采样)
B站视频网页版教材强化学习导论与多臂老虎机(MAB)核心内容。导论部分梳理了价值学习、策略学习及 actor-critic 三种架构,阐述深度强化学习的参数化优势与前沿研究方向;
i.ajls
4 个月前
人工智能
·
深度学习
·
机器学习
·
actor-critic
强化学习入门-3(AC)
本环境是OpenAI Gym提供的一个经典控制环境。官网链接:https://gymnasium.farama.org/environments/classic_control/cart_pole/
红烧code
2 年前
强化学习
·
policy gradient
·
actor-critic
VPG算法
首先来看经典的策略梯度REINFORCE算法:在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt,与动作概率对数相乘,作为误差反向传播,有以下几个特点:
我是有底线的