Softmax Strategy

1. epsilon-greedy strategy

11111

2. UCB strategy

222

3. Softmax strategy

333

4. Gradient strategy

444

References

1 科学网---【RL系列】Multi-Armed Bandit笔记------Softmax选择策略 - 管金昱的博文

2 The Epsilon-Greedy Algorithm | James D. McCaffrey

相关推荐
chen_zn9510 小时前
RLinf复现RECAP(一):从轨迹回报到优势标签
人工智能·强化学习·具身智能·vla
happyprince11 小时前
08_verl-Workers模块详解
人工智能·架构·强化学习
happyprince13 小时前
02_verl-代码目录结构详解
人工智能·架构·强化学习
happyprince13 小时前
10_verl-Rollout模块详解
人工智能·架构·强化学习
chen_zn9514 小时前
RLinf复现RECAP(二):优势标签驱动pi0.5的CFG训练
人工智能·强化学习·具身智能·vla
happyprince15 小时前
05_verl-配置系统详解
人工智能·架构·强化学习
happyprince16 小时前
06_verl-单控制器与分布式调度
人工智能·架构·强化学习
盼小辉丶16 小时前
PyTorch强化学习实战(13)——噪声网络(NoisyNet-DQN)
pytorch·深度学习·强化学习
chen_zn9516 小时前
pi*0.6的RECAP:VLA如何从成功、失败和人工纠正中继续学习
人工智能·深度学习·强化学习·具身智能·vla
科研小刘带你玩学术2 天前
【科研快讯】KAIST突破性研究:让机器人“读懂“人类意图——VOTP算法开启Physical AI新纪元
论文·强化学习·机器人视觉·physical ai·人类意图识别·reward function