Softmax Strategy

1. epsilon-greedy strategy

11111

2. UCB strategy

222

3. Softmax strategy

333

4. Gradient strategy

444

References

1\] [科学网---【RL系列】Multi-Armed Bandit笔记------Softmax选择策略 - 管金昱的博文](https://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&quickforward=1&id=1122463 "科学网—【RL系列】Multi-Armed Bandit笔记——Softmax选择策略 - 管金昱的博文") \[2\] [The Epsilon-Greedy Algorithm \| James D. McCaffrey](https://jamesmccaffrey.wordpress.com/2017/11/30/the-epsilon-greedy-algorithm/ "The Epsilon-Greedy Algorithm | James D. McCaffrey")

相关推荐
cloudy49118 小时前
强化学习:历史基金净产值,学习最大化长期收益
python·强化学习
胡攀峰1 天前
第12章 微调生成模型
人工智能·大模型·llm·sft·强化学习·rlhf·指令微调
豆芽8192 天前
强化学习(Reinforcement Learning, RL)和深度学习(Deep Learning, DL)
人工智能·深度学习·机器学习·强化学习
qq_431331353 天前
Unity ML-Agents + VScode 环境搭建 Windows
windows·vscode·unity·强化学习
IceTeapoy3 天前
【RL】强化学习入门(二):Q-Learning算法
人工智能·算法·强化学习
MocapLeader5 天前
新型多机器人协作运输系统,轻松应对复杂路面
机器人·ros·强化学习·多机器人协同·协同搬运
神经星星5 天前
多主体驱动生成能力达SOTA,字节UNO模型可处理多种图像生成任务
人工智能·开源·强化学习
Q同学5 天前
字节ReTool:大模型也要学会善于利用工具
llm·nlp·强化学习
IceTeapoy6 天前
【RL】强化学习入门(一):Q-Learning算法
人工智能·算法·强化学习
Tech Synapse6 天前
迷宫求解机器人:基于Pygame与Q-learning的强化学习实战教程
python·机器人·pygame·强化学习