Softmax Strategy

1. epsilon-greedy strategy

11111

2. UCB strategy

222

3. Softmax strategy

333

4. Gradient strategy

444

References

1\] [科学网---【RL系列】Multi-Armed Bandit笔记------Softmax选择策略 - 管金昱的博文](https://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&quickforward=1&id=1122463 "科学网—【RL系列】Multi-Armed Bandit笔记——Softmax选择策略 - 管金昱的博文") \[2\] [The Epsilon-Greedy Algorithm \| James D. McCaffrey](https://jamesmccaffrey.wordpress.com/2017/11/30/the-epsilon-greedy-algorithm/ "The Epsilon-Greedy Algorithm | James D. McCaffrey")

相关推荐
人工智能培训3 天前
企业如何安全、私密地部署大模型?
人工智能·深度学习·安全·大模型·知识图谱·强化学习·大模型工程师
盼小辉丶4 天前
PyTorch实战(24)——深度强化学习
pytorch·深度学习·强化学习
2401_841495644 天前
【强化学习】DQN 改进算法
人工智能·python·深度学习·强化学习·dqn·double dqn·dueling dqn
Struart_R4 天前
VideoLLM相关论文(二)
计算机视觉·大语言模型·强化学习·多模态·r1
啊阿狸不会拉杆4 天前
《机器学习》第六章-强化学习
人工智能·算法·机器学习·ai·机器人·强化学习·ml
蓝海星梦4 天前
【强化学习】深度解析 GSPO:解决 GRPO 中优化目标与奖励不匹配的问题
论文阅读·人工智能·自然语言处理·大语言模型·强化学习
镰刀韭菜5 天前
【LLM】一文理解推理大模型
大语言模型·强化学习·知识蒸馏·指令微调·deepseek·推理模型·旅程式学习
victory04316 天前
强化学习核心路线总结
强化学习
AI-Frontiers7 天前
收藏!LLM-RL训练框架:3大流派+6大框架,一文搞定
强化学习
Code-world-17 天前
NVIDIA Isaac Sim 安装教程
linux·人工智能·ubuntu·强化学习·isaac sim