强化学习基础概念----状态、动作、策略、奖励

状态:智能体相对环境的状态 如:s1

状态空间:也就是所有的状态和 记作 S={s1,s2....s9}

动作:s1->s2,这个行为就是动作 上下左右保持不动等5个动作

动作空间: 不同状态下的不同动作的总和 如 s1 的动作空间为 As1=它可以执行的动作

状态转移:意思是状态经过动作后进入下一个状态,可以记做 s1----a2--->s2

策略:

策略:整个表格 各个状态 动作的 整体条件概率
专业说法 强化学习术语"策略 π 可以表示为一个状态-动作值表(或矩阵),其元素 π(a|s) 定义了在状态 s 下选择动作 a 的概率。"
奖励:

在网格世界的例子中,奖励设计如下:

  • 如果智能体试图越过边界,设 rboundary=−1。
  • 如果智能体试图进入禁止的格子,设 rforbidden=−1。
  • 如果智能体到达目标状态,设 rtarget=+1。
  • 否则,智能体获得 rother=0 的奖励。

在某个状态执行一个动作后,智能体获得一个奖励(记为 r)作为来自环境的反馈。奖励是状态 s 和动作 a 的函数。因此,它也记为 r(s,a)。它的值可以是正数、负数或零。不同的奖励对智能体最终学到的策略有不同的影响。一般来说,通过正奖励,我们鼓励智能体采取相应的动作。通过负奖励,我们阻止智能体采取该动作。

在某个状态执行一个动作后,智能体获得一个奖励(记为 r)作为来自环境的反馈

相关推荐
自律懒人1 分钟前
AI Agent 记忆方案横评:Memoria vs OpenClaw vs MCP,让Agent记住你的3种方式
人工智能·大模型·ai编程
Allen正心正念20251 分钟前
AI编程—claude code中plugin三种范围模式的配置方法
人工智能·ai编程
豆豆2 分钟前
2026实测:AI生成UI设计稿后,如何优雅集成到PageAdmin CMS?(附标签替换代码)
人工智能·ui·cms·建站系统·ai工具·ai建站
梦想三三3 分钟前
【NLP入门到实战】TF-IDF算法详解 + 红楼梦120回关键词提取
人工智能·python·计算机视觉
弹简特3 分钟前
【零基础学Python】05-Python函数完全指南:从初阶定义到进阶参数,一篇打通核心难点
开发语言·python
优信其乐5 分钟前
AI数字人讲解视频的未来,不是数字人,而是PPT
人工智能·powerpoint·yoco·ppt转视频工具
雪隐6 分钟前
AI股票小助手03-Tushare数据采集
人工智能·后端
小烤箱6 分钟前
什么是 ROS2:机器人软件的数据加工工业园区
人工智能·机器人·ros
2601_955767427 分钟前
观复盾护景贴:东方哲思与双护科技的深度实测
人工智能·科技·ios·iphone·圆偏振光·磁控溅射
lpd_lt7 分钟前
服务端类vue等页面AI测试方向
前端·vue.js·人工智能