强化学习基础概念----状态、动作、策略、奖励

状态:智能体相对环境的状态 如:s1

状态空间:也就是所有的状态和 记作 S={s1,s2....s9}

动作:s1->s2,这个行为就是动作 上下左右保持不动等5个动作

动作空间: 不同状态下的不同动作的总和 如 s1 的动作空间为 As1=它可以执行的动作

状态转移:意思是状态经过动作后进入下一个状态,可以记做 s1----a2--->s2

策略:

策略:整个表格 各个状态 动作的 整体条件概率
专业说法 强化学习术语"策略 π 可以表示为一个状态-动作值表(或矩阵),其元素 π(a|s) 定义了在状态 s 下选择动作 a 的概率。"
奖励:

在网格世界的例子中,奖励设计如下:

  • 如果智能体试图越过边界,设 rboundary=−1。
  • 如果智能体试图进入禁止的格子,设 rforbidden=−1。
  • 如果智能体到达目标状态,设 rtarget=+1。
  • 否则,智能体获得 rother=0 的奖励。

在某个状态执行一个动作后,智能体获得一个奖励(记为 r)作为来自环境的反馈。奖励是状态 s 和动作 a 的函数。因此,它也记为 r(s,a)。它的值可以是正数、负数或零。不同的奖励对智能体最终学到的策略有不同的影响。一般来说,通过正奖励,我们鼓励智能体采取相应的动作。通过负奖励,我们阻止智能体采取该动作。

在某个状态执行一个动作后,智能体获得一个奖励(记为 r)作为来自环境的反馈

相关推荐
zhaodiandiandian3 小时前
守住伦理底线 破解生成式AI商业化的治理困局
人工智能
黑客思维者3 小时前
机器学习010:监督学习【回归算法】(Lasso回归)-- 用“魔法剪刀”找到真正重要的信息
人工智能·学习·机器学习·回归·监督学习·回归算法·lasso
csdn_aspnet3 小时前
Stable Diffusion 3.5 FP8 的应用场景探索
人工智能·stable diffusion·fp8·sd3.5
山东小木3 小时前
AI应用开发:节点化思维链与Skills经验库如何重塑企业级AI智能体
大数据·人工智能·skills·java ai·springboot ai
BoBoZz193 小时前
PolyDataToImageDataStencil如何用多边形数据作为“模板”来裁剪或屏蔽图像数据
python·vtk·图形渲染·图形处理
zhousenshan3 小时前
Python单例模式实现方法
python·单例模式
爱笑的眼睛113 小时前
深度解析现代OCR系统:从算法原理到高可用工程实践
java·人工智能·python·ai
敢敢のwings3 小时前
从Spatial-MLLM看到Multi-SpatialMLLM的多模态大语言模型
人工智能·语言模型·自然语言处理
WangLanguager3 小时前
HMM在金融时间序列分析中有什么作用?
人工智能·机器学习·金融