Softmax Strategy

1. epsilon-greedy strategy

11111

2. UCB strategy

222

3. Softmax strategy

333

4. Gradient strategy

444

References

1\] [科学网---【RL系列】Multi-Armed Bandit笔记------Softmax选择策略 - 管金昱的博文](https://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&quickforward=1&id=1122463 "科学网—【RL系列】Multi-Armed Bandit笔记——Softmax选择策略 - 管金昱的博文") \[2\] [The Epsilon-Greedy Algorithm \| James D. McCaffrey](https://jamesmccaffrey.wordpress.com/2017/11/30/the-epsilon-greedy-algorithm/ "The Epsilon-Greedy Algorithm | James D. McCaffrey")

相关推荐
Gowi_fly11 小时前
从 PPO、DPO 到 GRPO:大语言模型策略优化算法解析
llm·强化学习
我不是小upper1 天前
AReaL-boba²:首个全异步强化学习训练系统它来了!!
人工智能·强化学习
panbaoran9131 天前
【一】零基础--分层强化学习概览
强化学习·hrl
AI速译官2 天前
Confidence Is All You Need
强化学习
汤姆和佩琦6 天前
LLMs基础学习(八)强化学习专题(1)
深度学习·学习·强化学习·马尔可夫决策过程
白水baishui8 天前
搭建强化推荐的决策服务架构
架构·推荐系统·强化学习·决策服务·服务架构
Ai多利8 天前
能上Nature封面的idea!强化学习+卡尔曼滤波
强化学习·卡尔曼滤波
我就是全世界9 天前
AReaL-boba²:开源异步强化学习训练系统的革命性突破
开源·强化学习
瑶光守护者13 天前
【深度学习】自编码器:数据压缩与特征学习的神经网络引擎
人工智能·深度学习·神经网络·学习·机器学习·强化学习
取酒鱼食--【余九】15 天前
rl_sar功能包详解
人工智能·笔记·算法·机器人·强化学习