最优值函数二

一、扫地机器人的示例

我们可以明确给出扫地机器人的Bellman最优方程。为了使问题更简洁,我们将状态高和低以及动作搜索、等待和充电分别缩写为h、l、s、w和re。由于只有两个状态,Bellman最优方程由两个方程组成。v∗(h)的方程可以写成:

按照前面相同的步骤,得到v∗(l)的方程为

对于任何选择的rs,rw,α,β和γ,其中0 ≤ γ < 1,0 ≤ α,β ≤ 1,存在恰好一对数字v∗(h)和v∗(l),同时满足这两个非线性方程。

二、 Gridworld 的示例

假设我们解决了Bellman方程的v∗,对于在Gridworld中引入并再次在图1a中展示的简单网格任务。请记住,状态A后面跟着+10的奖励和到状态A0的转换,而状态B后面跟着+5的奖励和到状态B0的转换。图1b显示了最优值函数,图1c显示了相应的最优策略。在单元格中有多个箭头表示,任何相应的动作都是最佳的。

图1

显式地解决Bellman最优性方程提供了一种找到最优策略的途径,从而解决了强化学习问题。然而,这个解决方案很少直接有用。它类似于一个全面的搜索,前瞻性地看待所有可能性,计算它们发生的概率以及它们在预期奖励方面的适宜性。这个解决方案依赖于至少三个在实践中很少成立的假设:(1) 我们准确地知道环境的动态;(2) 我们有足够的计算资源来完成计算的解决方案;(3)马尔可夫属性。对于我们感兴趣的任务类型,一个人通常不能准确地实现这种解决方案,因为这些假设的各种组合是不成立的。例如,虽然第一个和第三个假设对双陆棋游戏没有造成问题,但第二个假设是一个主要的障碍。由于游戏有大约1020个状态,因此在当今最快的计算机上解决v∗的Bellman方程将需要数千年的时间,同样的情况也适用于寻找q∗。在强化学习中,通常需要求助于近似解。

许多不同的决策制定方法可以看作是近似求解Bellman最优方程的方法。例如,启发式搜索方法可以看作是将(3.17)的右侧展开几次,达到一定的深度,形成一个"树"的可能性,然后使用启发式评估函数来近似v∗的"叶子"节点。启发式搜索方法如A∗几乎总是基于离散情况。动态规划的方法与Bellman最优方程的关系更为密切。许多强化学习方法可以清楚地理解为近似求解Bellman最优方程,用实际的经验转移代替期望转移的知识。后续将考虑各种这样的方法。

相关推荐
冬奇Lab1 小时前
Workflow 系列(06):安全——跨步骤注入传播与四层防御
人工智能·工作流引擎
冬奇Lab2 小时前
每日一个开源项目(第149篇):RAG-Anything - 把图片、表格、公式当成一等公民的多模态 RAG 框架
人工智能·开源
米小虾2 小时前
AI Agent 安全实战指南:当智能体开始"不听话",开发者该如何应对?
人工智能·安全·agent
IT_陈寒3 小时前
Vite的热更新突然不香了,排查三小时差点砸键盘
前端·人工智能·后端
阿里云大数据AI技术5 小时前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu12276 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队6 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇6 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端
Token炼金师6 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc