强化学习基础概念----状态、动作、策略、奖励

状态:智能体相对环境的状态 如:s1

状态空间:也就是所有的状态和 记作 S={s1,s2....s9}

动作:s1->s2,这个行为就是动作 上下左右保持不动等5个动作

动作空间: 不同状态下的不同动作的总和 如 s1 的动作空间为 As1=它可以执行的动作

状态转移:意思是状态经过动作后进入下一个状态,可以记做 s1----a2--->s2

策略:

策略:整个表格 各个状态 动作的 整体条件概率
专业说法 强化学习术语"策略 π 可以表示为一个状态-动作值表(或矩阵),其元素 π(a|s) 定义了在状态 s 下选择动作 a 的概率。"
奖励:

在网格世界的例子中,奖励设计如下:

  • 如果智能体试图越过边界,设 rboundary=−1。
  • 如果智能体试图进入禁止的格子,设 rforbidden=−1。
  • 如果智能体到达目标状态,设 rtarget=+1。
  • 否则,智能体获得 rother=0 的奖励。

在某个状态执行一个动作后,智能体获得一个奖励(记为 r)作为来自环境的反馈。奖励是状态 s 和动作 a 的函数。因此,它也记为 r(s,a)。它的值可以是正数、负数或零。不同的奖励对智能体最终学到的策略有不同的影响。一般来说,通过正奖励,我们鼓励智能体采取相应的动作。通过负奖励,我们阻止智能体采取该动作。

在某个状态执行一个动作后,智能体获得一个奖励(记为 r)作为来自环境的反馈

相关推荐
会飞的老朱2 分钟前
医药集团数智化转型,智能综合管理平台激活集团管理新效能
大数据·人工智能·oa协同办公
聆风吟º1 小时前
CANN runtime 实战指南:异构计算场景中运行时组件的部署、调优与扩展技巧
人工智能·神经网络·cann·异构计算
寻星探路2 小时前
【深度长文】万字攻克网络原理:从 HTTP 报文解构到 HTTPS 终极加密逻辑
java·开发语言·网络·python·http·ai·https
Codebee4 小时前
能力中心 (Agent SkillCenter):开启AI技能管理新时代
人工智能
聆风吟º4 小时前
CANN runtime 全链路拆解:AI 异构计算运行时的任务管理与功能适配技术路径
人工智能·深度学习·神经网络·cann
uesowys4 小时前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
AI_56784 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
User_芊芊君子4 小时前
CANN大模型推理加速引擎ascend-transformer-boost深度解析:毫秒级响应的Transformer优化方案
人工智能·深度学习·transformer
ValhallaCoder4 小时前
hot100-二叉树I
数据结构·python·算法·二叉树
智驱力人工智能5 小时前
小区高空抛物AI实时预警方案 筑牢社区头顶安全的实践 高空抛物检测 高空抛物监控安装教程 高空抛物误报率优化方案 高空抛物监控案例分享
人工智能·深度学习·opencv·算法·安全·yolo·边缘计算