Softmax Strategy

1. epsilon-greedy strategy

11111

2. UCB strategy

222

3. Softmax strategy

333

4. Gradient strategy

444

References

1\] [科学网---【RL系列】Multi-Armed Bandit笔记------Softmax选择策略 - 管金昱的博文](https://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&quickforward=1&id=1122463 "科学网—【RL系列】Multi-Armed Bandit笔记——Softmax选择策略 - 管金昱的博文") \[2\] [The Epsilon-Greedy Algorithm \| James D. McCaffrey](https://jamesmccaffrey.wordpress.com/2017/11/30/the-epsilon-greedy-algorithm/ "The Epsilon-Greedy Algorithm | James D. McCaffrey")

相关推荐
仙人掌_lz1 天前
机器学习ML极简指南
人工智能·python·算法·机器学习·面试·强化学习
林泽毅2 天前
SwanLab x EasyR1:多模态LLM强化学习后训练组合拳,让模型进化更高效
算法·llm·强化学习
林泽毅3 天前
SwanLab Slack通知插件:让AI训练状态同步更及时
深度学习·机器学习·强化学习
Mr.Winter`4 天前
深度强化学习 | 基于优先级经验池的DQN算法(附Pytorch实现)
人工智能·pytorch·神经网络·机器学习·机器人·强化学习
wxchyy5 天前
强化学习:Markov决策过程(MDP)——手把手教你入门强化学习(二)
强化学习
wxchyy5 天前
强化学习:基础知识篇(包含Gym库的简单实践)——手把手教你入门强化学习(一)
强化学习
deephub6 天前
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架
人工智能·大语言模型·强化学习
电力程序小学童6 天前
【强化学习】基于深度强化学习的微能源网能量管理与优化策略研究【Python】
python·强化学习·dqn·q学习·微能源网
Blossom.1187 天前
基于深度强化学习的智能机器人路径规划技术研究
深度学习·机器人·动态规划·人机交互·制造·强化学习·路径规划
Mu先生Ai世界9 天前
强化学习RL-NPC复杂奖励机制的陷阱与需求简化策略
强化学习