Softmax Strategy

1. epsilon-greedy strategy

11111

2. UCB strategy

222

3. Softmax strategy

333

4. Gradient strategy

444

References

1\] [科学网---【RL系列】Multi-Armed Bandit笔记------Softmax选择策略 - 管金昱的博文](https://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&quickforward=1&id=1122463 "科学网—【RL系列】Multi-Armed Bandit笔记——Softmax选择策略 - 管金昱的博文") \[2\] [The Epsilon-Greedy Algorithm \| James D. McCaffrey](https://jamesmccaffrey.wordpress.com/2017/11/30/the-epsilon-greedy-algorithm/ "The Epsilon-Greedy Algorithm | James D. McCaffrey")

相关推荐
简简单单做算法14 小时前
基于Qlearning强化学习和Parzen窗的图像分割算法matlab仿真
matlab·图像分割·强化学习·qlearning·parzen窗
深度之眼16 小时前
强化学习与目标检测王炸组合,IEEE Trans顶刊发表!
目标检测·计算机视觉·强化学习
ACCELERATOR_LLC1 天前
【DataWhale组队学习】DIY-LLM Task5 大模型的基本训练流程
人工智能·深度学习·大模型·强化学习·模型训练
传说故事1 天前
【论文阅读】AWR:Simple and scalable off-policy RL
论文阅读·强化学习
Narrastory2 天前
Note:强化学习(五)
人工智能·深度学习·强化学习
盼小辉丶3 天前
PyTorch强化学习实战(3)——Gymnasium API扩展功能
人工智能·pytorch·深度学习·强化学习
我爱C编程6 天前
移动边缘网络中基于双深度QLearning强化学习(DDQL)的高能效资源分配方法
matlab·强化学习·移动边缘网络·双深度qlearning·ddql·高能效资源分配
盼小辉丶6 天前
PyTorch强化学习实战(2)——强化学习环境库Gymnasium
pytorch·深度学习·强化学习
谷哥的小弟6 天前
大模型核心基础知识(03)—大模型的分类方法与应用场景
人工智能·深度学习·机器学习·大模型·强化学习·智能体
Narrastory7 天前
Note:强化学习(四)
人工智能·深度学习·强化学习