Softmax Strategy

1. epsilon-greedy strategy

11111

2. UCB strategy

222

3. Softmax strategy

333

4. Gradient strategy

444

References

1\] [科学网---【RL系列】Multi-Armed Bandit笔记------Softmax选择策略 - 管金昱的博文](https://blog.sciencenet.cn/home.php?mod=space&uid=3189881&do=blog&quickforward=1&id=1122463 "科学网—【RL系列】Multi-Armed Bandit笔记——Softmax选择策略 - 管金昱的博文") \[2\] [The Epsilon-Greedy Algorithm \| James D. McCaffrey](https://jamesmccaffrey.wordpress.com/2017/11/30/the-epsilon-greedy-algorithm/ "The Epsilon-Greedy Algorithm | James D. McCaffrey")

相关推荐
山顶夕景3 天前
【RLVR】GRPO中奖励函数的设计逻辑
llm·强化学习·rl·奖励函数·reward
JJJJ_iii6 天前
【机器学习16】连续状态空间、深度Q网络DQN、经验回放、探索与利用
人工智能·笔记·python·机器学习·强化学习
CoovallyAIHub7 天前
当视觉语言模型接收到相互矛盾的信息时,它会相信哪个信号?
深度学习·计算机视觉·强化学习
盼小辉丶8 天前
优势演员-评论家(Advantage Actor-Critic,A2C)算法详解与实现
深度学习·keras·强化学习
AI-Frontiers9 天前
收藏!强化学习从入门到封神:5 本经典教材 + 8 大实战项目 + 7个免费视频,一站式搞定
强化学习
山顶夕景9 天前
【RL】Scaling RL Compute for LLMs
深度学习·大模型·强化学习
九年义务漏网鲨鱼11 天前
【Agentic RL 专题】二、Agentic RL——Memory
人工智能·大模型·强化学习·记忆模块
盼小辉丶12 天前
Double DQN(DDQN)详解与实现
深度学习·keras·强化学习
沉迷单车的追风少年13 天前
Diffusion Model与视频超分(2):解读字节开源视频增强模型SeedVR2
人工智能·深度学习·aigc·音视频·强化学习·视频生成·视频超分
信鑫13 天前
AIO Sandbox:为 AI Agent 打造的一体化、可定制的沙箱环境
llm·agent·强化学习