Softmax Strategy

1. epsilon-greedy strategy

11111

2. UCB strategy

222

3. Softmax strategy

333

4. Gradient strategy

444

References

1\] [科学网---【RL系列】Multi-Armed Bandit笔记------Softmax选择策略 - 管金昱的博文](https://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&quickforward=1&id=1122463 "科学网—【RL系列】Multi-Armed Bandit笔记——Softmax选择策略 - 管金昱的博文") \[2\] [The Epsilon-Greedy Algorithm \| James D. McCaffrey](https://jamesmccaffrey.wordpress.com/2017/11/30/the-epsilon-greedy-algorithm/ "The Epsilon-Greedy Algorithm | James D. McCaffrey")

相关推荐
盼小辉丶21 小时前
PyTorch强化学习实战——Atari游戏包装器
pytorch·深度学习·强化学习
viperrrrrrrrrr721 小时前
强化学习入门笔记
人工智能·强化学习
阿里云大数据AI技术2 天前
开发者博客|在阿里云 PAI 平台实现规模化的机器人感知强化学习
人工智能·阿里云·机器人·强化学习·nvidia
deephub3 天前
2026 年面向 LLM 的 RL方法总结:从 PPO 到 DPO 到 GRPO,再到多智能体 RL
人工智能·大语言模型·强化学习·多智能体
Robot_Nav3 天前
深度学习与强化学习面试八股文知识点汇总
人工智能·深度学习·强化学习
盼小辉丶4 天前
PyTorch强化学习实战(9)——深度Q学习
pytorch·深度学习·强化学习
我爱C编程5 天前
基于Sarsa强化学习的异构蜂窝网络中基站休眠算法matlab仿真
网络·matlab·强化学习·sarsa·异构蜂窝网络·基站休眠
熊猫钓鱼>_>6 天前
强化学习与决策优化:从理论到工程落地的完整指南
人工智能·llm·强化学习·rl·马尔可夫·mdp·决策过程
盼小辉丶8 天前
PyTorch强化学习实战(8)——Q学习详解与实现
pytorch·深度学习·强化学习
星座5288 天前
驾驭AI 2.0时代:Transformer、扩散模型与物理信息神经网络核心技术解析
人工智能·深度学习·神经网络·transformer·强化学习·目标检测算法