Reinforce Learning Concept Flow Chart (强化学习概念流程图)

在强化学习中,智能体(agent)在一系列的事件步骤上与环境交互。在每个特定时间点,智能体从环境结构一些观测(observation),并且必须选择一个动作(action),然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中得到奖励(reward)。注意,强化学习的目标是产生一个好的策略(policy)。强化学习智能体选择的"动作"受策略控制,即从一个环境观测映射到动作的功能。

当环境可被完全观测到时,强化学习问题被称为马尔可夫决策过程(Markov Decision Process)。它的核心是无后效性(Memorylessness),未来的状态仅依赖于当前状态和动作,与"过去的状态/动作序列"无关。这种性质让MDP的计算变得可行,它无需存储历史信息。当状态不依赖之前的动作时,我们称该问题为上下文老虎机(contextual bandit problem)。当没有状态,只有一组最初未知奖励的可用动作时,这个问题就是经典的多臂老虎机(multi-armed bandit problem)。

如下图所示:

参考文献:

1\] 《动手学深度学习PyTorch版》 \[2\] www.alphachain.net.cn

相关推荐
mCell15 小时前
关于 Openclaw,最近的一点思考。
人工智能·安全·aigc
qq_1715388515 小时前
纳采问名定佳期:中国传统订婚文化的千年传承与地域风华
人工智能
zzb158015 小时前
RAG from Scratch-优化-query
java·数据库·人工智能·后端·spring·mybatis
uzong15 小时前
315晚会曝光“AI大模型被投毒”,让AI听话,GEO是什么,带给我们什么思考
人工智能
V搜xhliang024615 小时前
机器人建模(URDF)与仿真配置
大数据·人工智能·深度学习·机器学习·自然语言处理·机器人
房产中介行业研习社15 小时前
2026年3月哪些房源管理系统功能全
大数据·运维·人工智能
只说证事15 小时前
学数控的中专生,如何规划自己的考证路线?
机器学习
Shining059616 小时前
CUDA 编程系列(三)《内存模型与规约优化》
人工智能·学习·其他·学习方法·infinitensor
lisw0516 小时前
基于图像的恶意软件分类方法!
人工智能·机器学习
L-影16 小时前
AI中的Transformer:从RNN的困境到横扫一切的革命(下篇)
人工智能·rnn·ai·transformer