Softmax Strategy

1. epsilon-greedy strategy

11111

2. UCB strategy

222

3. Softmax strategy

333

4. Gradient strategy

444

References

1\] [科学网---【RL系列】Multi-Armed Bandit笔记------Softmax选择策略 - 管金昱的博文](https://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&quickforward=1&id=1122463 "科学网—【RL系列】Multi-Armed Bandit笔记——Softmax选择策略 - 管金昱的博文") \[2\] [The Epsilon-Greedy Algorithm \| James D. McCaffrey](https://jamesmccaffrey.wordpress.com/2017/11/30/the-epsilon-greedy-algorithm/ "The Epsilon-Greedy Algorithm | James D. McCaffrey")

相关推荐
s1ckrain21 小时前
【论文阅读】DeepEyes: Incentivizing “Thinking with Images” via Reinforcement Learning
论文阅读·强化学习·多模态大模型·vlm
智能汽车人2 天前
Robot---能打羽毛球的机器人
人工智能·机器人·强化学习
SunStriKE14 天前
veRL代码阅读-2.Ray
强化学习
我爱C编程15 天前
基于强化学习的5G通信网络基站资源动态分配策略matlab性能仿真
5g·matlab·强化学习·基站资源动态分配
微软开发者15 天前
极客说|强化学习(RL)与有监督微调(SFT)的选择以及奖励函数的优化
强化学习
SunStriKE17 天前
veRL代码阅读-1.论文原理
深度学习·强化学习·源码阅读
Listennnn18 天前
强化学习三大分类
人工智能·强化学习
JNU freshman18 天前
强化学习之 DQN、Double DQN、PPO
强化学习
MarkGosling19 天前
【资源合集】强化学习训练LLM Agents的实战资源库:AgentsMeetRL
llm·agent·强化学习
汤姆和佩琦19 天前
LLMs基础学习(八)强化学习专题(4)
学习·强化学习·策略随机探索