强化学习基础概念----状态、动作、策略、奖励

状态:智能体相对环境的状态 如:s1

状态空间:也就是所有的状态和 记作 S={s1,s2....s9}

动作:s1->s2,这个行为就是动作 上下左右保持不动等5个动作

动作空间: 不同状态下的不同动作的总和 如 s1 的动作空间为 As1=它可以执行的动作

状态转移:意思是状态经过动作后进入下一个状态,可以记做 s1----a2--->s2

策略:

策略:整个表格 各个状态 动作的 整体条件概率
专业说法 强化学习术语"策略 π 可以表示为一个状态-动作值表(或矩阵),其元素 π(a|s) 定义了在状态 s 下选择动作 a 的概率。"
奖励:

在网格世界的例子中,奖励设计如下:

  • 如果智能体试图越过边界,设 rboundary=−1。
  • 如果智能体试图进入禁止的格子,设 rforbidden=−1。
  • 如果智能体到达目标状态,设 rtarget=+1。
  • 否则,智能体获得 rother=0 的奖励。

在某个状态执行一个动作后,智能体获得一个奖励(记为 r)作为来自环境的反馈。奖励是状态 s 和动作 a 的函数。因此,它也记为 r(s,a)。它的值可以是正数、负数或零。不同的奖励对智能体最终学到的策略有不同的影响。一般来说,通过正奖励,我们鼓励智能体采取相应的动作。通过负奖励,我们阻止智能体采取该动作。

在某个状态执行一个动作后,智能体获得一个奖励(记为 r)作为来自环境的反馈

相关推荐
苍煜13 小时前
Java开发IO零基础吃透:BIO、NIO、同步异步、阻塞非阻塞
java·python·nio
后端小肥肠13 小时前
公众号漫画卷疯了?我用漫画工厂Skill,3天带群友入池,小白也能抄作业
人工智能·aigc·agent
扑兔AI13 小时前
扑兔AI基于公开数据的B2B客源筛选与意向评分系统设计
人工智能·生活
数智化精益手记局13 小时前
什么是设备维护管理?设备维护管理包含哪些内容?
大数据·网络·人工智能·安全·信息可视化
飞Link13 小时前
iOS 27 开启“AI 开放时代”:Siri 驱动可更换背后的技术范式迁移
人工智能·ios
AllData公司负责人13 小时前
通过Postgresql同步到Doris,全视角演示AllData数据中台核心功能效果,涵盖:数据入湖仓,数据同步,数据处理,数据服务,BI可视化驾驶舱
java·大数据·数据库·数据仓库·人工智能·python·postgresql
飞Link13 小时前
GPT-5.5 Instant 震撼发布:Realtime-2 API 如何重新定义多模态交互?
人工智能·gpt·microsoft·交互·语音识别
飞Link14 小时前
具身智能港亮相深圳:从“大脑”到“身体”,开启人形机器人产业新纪元
人工智能·机器人
IT谢彪14 小时前
记录Dify 安装与使用过程
人工智能
飞Link14 小时前
AI 与能源的双向奔赴:深度解读 2026《双向赋能》行动方案
人工智能·能源