Reinforce Learning Concept Flow Chart (强化学习概念流程图)

在强化学习中,智能体(agent)在一系列的事件步骤上与环境交互。在每个特定时间点,智能体从环境结构一些观测(observation),并且必须选择一个动作(action),然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中得到奖励(reward)。注意,强化学习的目标是产生一个好的策略(policy)。强化学习智能体选择的"动作"受策略控制,即从一个环境观测映射到动作的功能。

当环境可被完全观测到时,强化学习问题被称为马尔可夫决策过程(Markov Decision Process)。它的核心是无后效性(Memorylessness),未来的状态仅依赖于当前状态和动作,与"过去的状态/动作序列"无关。这种性质让MDP的计算变得可行,它无需存储历史信息。当状态不依赖之前的动作时,我们称该问题为上下文老虎机(contextual bandit problem)。当没有状态,只有一组最初未知奖励的可用动作时,这个问题就是经典的多臂老虎机(multi-armed bandit problem)。

如下图所示:

参考文献:

1\] 《动手学深度学习PyTorch版》 \[2\] www.alphachain.net.cn

相关推荐
一个努力编程人2 分钟前
NLP领域————T5算法
人工智能·自然语言处理
老金带你玩AI7 分钟前
这个Skill能自动学会你的所有习惯,踩过的坑!
人工智能
power 雀儿9 分钟前
LibTorch激活函数&LayerNorm归一化
c++·人工智能
yuzhuanhei16 分钟前
基于Claude Code实现MobileNetV3训练记录
人工智能·深度学习
Loo国昌21 分钟前
【AI应用开发实战】05_GraphRAG:知识图谱增强检索实战
人工智能·后端·python·语言模型·自然语言处理·金融·知识图谱
Dr.AE21 分钟前
金蝶AI星辰 产品分析报告
大数据·人工智能
LaughingZhu30 分钟前
Product Hunt 每日热榜 | 2026-02-22
人工智能·经验分享·深度学习·神经网络·产品运营
数据智能老司机32 分钟前
打造 ML/AI 系统的内部开发者平台(IDP)——设计可靠的机器学习(ML)系统
人工智能·llm·aiops
上进小菜猪37 分钟前
基于 YOLOv8 的面向矿井场景的煤炭图像智能检测系统 [目标检测完整源码](YOLOv8 + PyQt5 实战)
人工智能
~央千澈~44 分钟前
08实战处理AI音乐技术详解第三阶段:时间人性化(Timing Humanization)·卓伊凡
人工智能