Softmax Strategy

1. epsilon-greedy strategy

11111

2. UCB strategy

222

3. Softmax strategy

333

4. Gradient strategy

444

References

1\] [科学网---【RL系列】Multi-Armed Bandit笔记------Softmax选择策略 - 管金昱的博文](https://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&quickforward=1&id=1122463 "科学网—【RL系列】Multi-Armed Bandit笔记——Softmax选择策略 - 管金昱的博文") \[2\] [The Epsilon-Greedy Algorithm \| James D. McCaffrey](https://jamesmccaffrey.wordpress.com/2017/11/30/the-epsilon-greedy-algorithm/ "The Epsilon-Greedy Algorithm | James D. McCaffrey")

相关推荐
大千AI助手14 小时前
VeRL:强化学习与大模型训练的高效融合框架
人工智能·深度学习·神经网络·llm·强化学习·verl·字节跳动seed
zzzyzh3 天前
RL【3】:Bellman Optimality Equation
强化学习
deepdata_cn7 天前
强化学习框架(AReaL)
强化学习
计算机sci论文精选10 天前
CVPR 强化学习模块深度分析:连多项式不等式+自驾规划
人工智能·深度学习·机器学习·计算机视觉·机器人·强化学习·cvpr
Baihai_IDP12 天前
强化学习的“GPT-3 时刻”即将到来
人工智能·llm·强化学习
@LijinLiu12 天前
强化学习基本实操
计算机视觉·强化学习
龙腾亚太19 天前
基于深度强化学习的无人机自主感知−规划−控制策略
机器学习·无人机·强化学习·深度强化学习
聚客AI20 天前
🧩万亿级Token训练!解密大模型预训练算力黑洞与RLHF对齐革命
人工智能·llm·强化学习
nju_spy21 天前
王树森深度强化学习DRL(三)围棋AlphaGo+蒙特卡洛
强化学习·南京大学·alphago·蒙特卡洛树搜索·策略网络·价值网络·随机梯度算法
DuanGe1 个月前
Chrome浏览器页面中跳转到IE浏览器页面
强化学习