Reinforce Learning Concept Flow Chart (强化学习概念流程图)

在强化学习中,智能体(agent)在一系列的事件步骤上与环境交互。在每个特定时间点,智能体从环境结构一些观测(observation),并且必须选择一个动作(action),然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中得到奖励(reward)。注意,强化学习的目标是产生一个好的策略(policy)。强化学习智能体选择的"动作"受策略控制,即从一个环境观测映射到动作的功能。

当环境可被完全观测到时,强化学习问题被称为马尔可夫决策过程(Markov Decision Process)。它的核心是无后效性(Memorylessness),未来的状态仅依赖于当前状态和动作,与"过去的状态/动作序列"无关。这种性质让MDP的计算变得可行,它无需存储历史信息。当状态不依赖之前的动作时,我们称该问题为上下文老虎机(contextual bandit problem)。当没有状态,只有一组最初未知奖励的可用动作时,这个问题就是经典的多臂老虎机(multi-armed bandit problem)。

如下图所示:

参考文献:

1\] 《动手学深度学习PyTorch版》 \[2\] www.alphachain.net.cn

相关推荐
星越华夏6 小时前
计算机视觉:YOLOv12安装环境
人工智能·yolo·计算机视觉
Yolanda948 小时前
【人工智能】《从零搭建AI问答助手项目(九):Prompt优化》
人工智能·prompt
wj3055853788 小时前
课程 9:模型测试记录与 Prompt 策略
linux·人工智能·python·comfyui
小和尚同志8 小时前
深入使用 skill-creator:结合真实生产级实践
人工智能·aigc
DevSecOps选型指南8 小时前
安全419专访悬镜安全 | 穿越周期在 AI 浪潮中定义数字供应链安全新范式
人工智能
沪漂阿龙8 小时前
面试题详解:GraphRAG 全面解析——知识图谱增强 RAG、Local Search、Global Search、社区摘要、工程落地与评估指标一次讲透
人工智能·知识图谱
WangN28 小时前
Unitree RL Lab 学习笔记【通识】
人工智能·机器学习
haina20198 小时前
海纳AI亮相《科创中国》,解码招聘“智”变之路
人工智能·ai面试·ai招聘
阿星AI工作室8 小时前
刘润年中大课笔记:一句话说清AI落地之战的本质
大数据·人工智能·创业创新·商业
qingfeng154158 小时前
企业微信机器人开发:如何实现自动化与智能运营?
人工智能·python·机器人·自动化·企业微信