Reinforce Learning Concept Flow Chart (强化学习概念流程图)

在强化学习中,智能体(agent)在一系列的事件步骤上与环境交互。在每个特定时间点,智能体从环境结构一些观测(observation),并且必须选择一个动作(action),然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中得到奖励(reward)。注意,强化学习的目标是产生一个好的策略(policy)。强化学习智能体选择的"动作"受策略控制,即从一个环境观测映射到动作的功能。

当环境可被完全观测到时,强化学习问题被称为马尔可夫决策过程(Markov Decision Process)。它的核心是无后效性(Memorylessness),未来的状态仅依赖于当前状态和动作,与"过去的状态/动作序列"无关。这种性质让MDP的计算变得可行,它无需存储历史信息。当状态不依赖之前的动作时,我们称该问题为上下文老虎机(contextual bandit problem)。当没有状态,只有一组最初未知奖励的可用动作时,这个问题就是经典的多臂老虎机(multi-armed bandit problem)。

如下图所示:

参考文献:

1\] 《动手学深度学习PyTorch版》 \[2\] www.alphachain.net.cn

相关推荐
大龄程序员狗哥2 分钟前
第44篇:命名实体识别(NER)实战——从文本中提取关键信息(项目实战)
人工智能
lpfasd12310 分钟前
2026年第17周GitHub趋势周报:AI代理工程化与端侧智能加速落地
人工智能·github
nervermore99020 分钟前
2.人工智能学习-环境搭建
人工智能
Flying pigs~~31 分钟前
LoRA 面试完全指南:低秩分解原理 + Transformer 应用
人工智能·深度学习·lora·大模型·微调·transformer
AI手记叨叨33 分钟前
机器学习可解释性工具SHAP
机器学习·shap
大橙子打游戏38 分钟前
薅满火山引擎每天数百万免费 Tokens:我写了一个自动轮换代理
人工智能
lpfasd12342 分钟前
2026年第17周科技社区趋势周报
人工智能·科技
IT_陈寒43 分钟前
SpringBoot配置加载顺序把我坑惨了
前端·人工智能·后端
集和诚JHCTECH1 小时前
BRAV-7120加持,让有毒有害气体无处遁形
大数据·人工智能·嵌入式硬件
高洁011 小时前
大模型部署资源不足?轻量化部署解决方案
python·深度学习·机器学习·数据挖掘·transformer