技术栈

汤普森采样

nju_spy
3 小时前
人工智能·python·强化学习·actor-critic·多臂老虎机·汤普森采样·探索与利用
动手学强化学习上交张伟楠(一)导论 + 多臂老虎机 MAB(ε-greedy+上置信界+汤普森采样)B站视频网页版教材强化学习导论与多臂老虎机(MAB)核心内容。导论部分梳理了价值学习、策略学习及 actor-critic 三种架构,阐述深度强化学习的参数化优势与前沿研究方向;
我是有底线的