Reinforce Learning Concept Flow Chart (强化学习概念流程图)

在强化学习中,智能体(agent)在一系列的事件步骤上与环境交互。在每个特定时间点,智能体从环境结构一些观测(observation),并且必须选择一个动作(action),然后通过某种机制(有时称为执行器)将其传输回环境,最后智能体从环境中得到奖励(reward)。注意,强化学习的目标是产生一个好的策略(policy)。强化学习智能体选择的"动作"受策略控制,即从一个环境观测映射到动作的功能。

当环境可被完全观测到时,强化学习问题被称为马尔可夫决策过程(Markov Decision Process)。它的核心是无后效性(Memorylessness),未来的状态仅依赖于当前状态和动作,与"过去的状态/动作序列"无关。这种性质让MDP的计算变得可行,它无需存储历史信息。当状态不依赖之前的动作时,我们称该问题为上下文老虎机(contextual bandit problem)。当没有状态,只有一组最初未知奖励的可用动作时,这个问题就是经典的多臂老虎机(multi-armed bandit problem)。

如下图所示:

参考文献:

1\] 《动手学深度学习PyTorch版》 \[2\] www.alphachain.net.cn

相关推荐
薛定谔的猫19822 小时前
十三.调用 BERT 中文文本情感分析交互式推理模型训练好的
人工智能·深度学习·bert
home_4982 小时前
与gemini关于宇宙观科幻对话
人工智能
Candice Can2 小时前
【机器学习】吴恩达机器学习Lecture2-Linear regression with one variable
人工智能·机器学习·线性回归·吴恩达机器学习
undsky_2 小时前
【RuoYi-SpringBoot3-Pro】:将 AI 编程融入传统 java 开发
java·人工智能·spring boot·ai·ai编程
薛定谔的猫19822 小时前
十二、基于 BERT 的中文文本二分类模型测试实战:从数据加载到准确率评估
人工智能·分类·bert
淮北4942 小时前
Reinforce算法
人工智能·机器学习
shangjian0072 小时前
AI-大语言模型LLM-概念术语-Dropout
人工智能·语言模型·自然语言处理
小鸡吃米…2 小时前
机器学习 - 高斯判别分析(Gaussian Discriminant Analysis)
人工智能·深度学习·机器学习
香芋Yu2 小时前
【机器学习教程】第01章:机器学习概览
人工智能·机器学习