最优值函数二

一、扫地机器人的示例

我们可以明确给出扫地机器人的Bellman最优方程。为了使问题更简洁,我们将状态高和低以及动作搜索、等待和充电分别缩写为h、l、s、w和re。由于只有两个状态,Bellman最优方程由两个方程组成。v∗(h)的方程可以写成:

按照前面相同的步骤,得到v∗(l)的方程为

对于任何选择的rs,rw,α,β和γ,其中0 ≤ γ < 1,0 ≤ α,β ≤ 1,存在恰好一对数字v∗(h)和v∗(l),同时满足这两个非线性方程。

二、 Gridworld 的示例

假设我们解决了Bellman方程的v∗,对于在Gridworld中引入并再次在图1a中展示的简单网格任务。请记住,状态A后面跟着+10的奖励和到状态A0的转换,而状态B后面跟着+5的奖励和到状态B0的转换。图1b显示了最优值函数,图1c显示了相应的最优策略。在单元格中有多个箭头表示,任何相应的动作都是最佳的。

图1

显式地解决Bellman最优性方程提供了一种找到最优策略的途径,从而解决了强化学习问题。然而,这个解决方案很少直接有用。它类似于一个全面的搜索,前瞻性地看待所有可能性,计算它们发生的概率以及它们在预期奖励方面的适宜性。这个解决方案依赖于至少三个在实践中很少成立的假设:(1) 我们准确地知道环境的动态;(2) 我们有足够的计算资源来完成计算的解决方案;(3)马尔可夫属性。对于我们感兴趣的任务类型,一个人通常不能准确地实现这种解决方案,因为这些假设的各种组合是不成立的。例如,虽然第一个和第三个假设对双陆棋游戏没有造成问题,但第二个假设是一个主要的障碍。由于游戏有大约1020个状态,因此在当今最快的计算机上解决v∗的Bellman方程将需要数千年的时间,同样的情况也适用于寻找q∗。在强化学习中,通常需要求助于近似解。

许多不同的决策制定方法可以看作是近似求解Bellman最优方程的方法。例如,启发式搜索方法可以看作是将(3.17)的右侧展开几次,达到一定的深度,形成一个"树"的可能性,然后使用启发式评估函数来近似v∗的"叶子"节点。启发式搜索方法如A∗几乎总是基于离散情况。动态规划的方法与Bellman最优方程的关系更为密切。许多强化学习方法可以清楚地理解为近似求解Bellman最优方程,用实际的经验转移代替期望转移的知识。后续将考虑各种这样的方法。

相关推荐
学步_技术7 分钟前
自动驾驶系列—线控系统:驱动自动驾驶的核心技术解读与应用指南
人工智能·机器学习·自动驾驶·线控系统·转向系统
jmoych15 分钟前
AI正悄然地影响着企业数字化转型
人工智能
说私域18 分钟前
社群团购中的用户黏性价值:以开源小程序多商户AI智能名片商城源码为例
人工智能·小程序
深度学习实战训练营1 小时前
基于keras的停车场车位识别
人工智能·深度学习·keras
乔代码嘚1 小时前
AI2.0时代,普通小白如何通过AI月入30万
人工智能·stable diffusion·aigc
墨@#≯1 小时前
机器学习系列篇章0 --- 人工智能&机器学习相关概念梳理
人工智能·经验分享·机器学习
Elastic 中国社区官方博客1 小时前
Elasticsearch:使用 LLM 实现传统搜索自动化
大数据·人工智能·elasticsearch·搜索引擎·ai·自动化·全文检索
_.Switch1 小时前
Python机器学习模型的部署与维护:版本管理、监控与更新策略
开发语言·人工智能·python·算法·机器学习
XiaoLiuLB2 小时前
ChatGPT Canvas:交互式对话编辑器
人工智能·自然语言处理·chatgpt·编辑器·aigc
Hoper.J2 小时前
PyTorch 模型保存与加载的三种常用方式
人工智能·pytorch·python