强化学习[chapter8] [page18]Policy Gradient

摘要

前面策略一直以表格形式呈现:所有状态的动作概率均存储于表中。

本章将展示策略可通过参数化函数表示,当策略以函数形式表示时,可通过优化特定标量指标来获得最优策略,这种方法称为策略梯度。 策略梯度方法具有诸多优势。例如,它能够更高效地处理大规模的状态/动作空间;具备更强的泛化能力,因而在样本利用率上也更为高效。

本章核心是掌握下面表格


目录

  1. 从表格到标量目标函数

  2. 评估指标 1:Average state value

  3. 评估指标 2: Average one-step reward

  4. 关于评估指标(metrics)的几点说明

  5. Metric的另一种形式


一. 从表格到标量目标函数

前面学习的 Sarsa 和 Q-learning 均属于表格型强化学习,其中策略直接存储在状态-动作对应的条目中。最优策略被定义为:在所有状态上,其状态价值函数均不劣于其他任何策略的价值函数,这本质上是多个标量间的联合比较。

在函数逼近方法中,策略由参数(如神经网络权重)参数化为 ,策略空间连续且庞大,无法逐一比较各状态价值。此时,须定义一个单一、可微的标量目标函数 J(θ),以整体评估策略 的优劣。

两种表示方法的差异:

1. 最优策略定义

  • 表格形式:使每个状态价值最大化的策略。
  • 函数形式:使某个标量指标最大化的策略。

2.策略更新方法

  • 表格形式:直接修改表格中的策略条目。
  • 函数形式:通过调整参数θ进行更新。

3. 动作概率获取

  • 表格形式:直接查表获取动作概率。
  • 函数形式:输入状态-动作对(s, a)计算概率,或输入状态输出动作概率分布。

二、评估指标一:Average state value

第一个指标是平均状态价值(简称平均值).其定义为

其中 d(s)为状态 s 的权重,满足对任意 ,且

因此可将 解释为状态的概率分布,此时该指标可写为

d可分为两种情况:

1. 分布 d 与策略 无关

记 d 为 ,记指标为以表明分布与策略独立。

1 所有状态同等重要:

为一个标量。

2 仅关注特定状态 (例如游戏智能体始终从 出发),此时可设计

2. 分布 d 依赖于策略

此时常取d 为策略 下的稳态分布 。 满足基本性质

此时常取d为策略下的稳态分布,满足基本性质:

其中P为状态转移概率矩阵。

稳态分布反映了策略下MDP的长期行为:频繁访问的状态权重更高,反之权重更低。

状态价值的加权平均值J(θ)由参数θ决定,目标为寻找最优参数θ*以最大化J(θ)。


三 评估指标二: Average one-step reward

第二个度量是单步平均奖励(average one-step reward)具体定义为:

其中 是稳态分布,而策略的即时奖励

即时奖励为

本质上是一种递归求解的思想如下图

在强化学习中,上述等式还有一个等价定义:

**1:**假设我们遵循某个给定的策略 π,与环境交互生成一条轨迹(trajectory)。

2:计算该轨迹的平均单步奖励(average single-step reward),即:

avarage single-step reward

3随着时间步数 k 不断增大,根据马尔可夫性质(Markov property)及平稳性假设,初始状态 s0对长期平均奖励的影响将趋于消失。


四、关于评估指标(metrics)的几点说明

  1. 说明一:评估指标是策略的函数

    • 评估指标 ****是策略的函数

    • 不同的策略会产生不同的评估指标值

  2. 说明二:关于评估指标的定义

    • 一个复杂之处在于:评估指标可以定义在无折扣情况 下(其中 γ=1),也可以定义在折扣情况下(其中 0≤γ<1)

    • 无折扣情况较为复杂

    • 我们仅考虑折扣情况

  3. 说明三:关于评估指标的直观理解

    • 直观上,折扣的总奖励 (γ=1)更注重长期回报,因为它考虑所有步骤的累计奖励

    • 无折扣情况 (γ<1)则更短视,因为它更强调即时奖励

    • 实际上,这两种形式在数学上是等效的(可通过适当转换证明)


四、Metric的另一种形式

前面我们学习了metric 的两种方式

公式(2)还有另外一种形式

  1. 它从初始状态分布出发,生成一条完整轨迹。

2 沿该轨迹计算累积奖励的均值,即可得到该度量的估计值

由此可知,该度量与平均奖励(average reward)等价


https://jonathan-hui.medium.com/rl-policy-gradients-explained-9b13b688b146https://www.youtube.com/watch?v=e20EY4tFC_Q

https://www.youtube.com/watch?v=cQfOQcpYRzE

相关推荐
nap-joker几秒前
血浆蛋白质组学鉴定了生物衰老的新型生物标志物和动态模式
人工智能·phewas·孟德尔随机化·血浆蛋白
炽烈小老头8 分钟前
【 每天学习一点算法 2026/04/21】螺旋矩阵
学习·算法
DeepModel11 分钟前
特征缩放(标准化/归一化)超通俗讲解
机器学习
Techblog of HaoWANG12 分钟前
目标检测与跟踪(16)-- Ubuntu 20.04 下 ROS1 + Conda 虚拟环境开机自启动方案(兼容 ROS2 共存)
人工智能·目标检测·ubuntu·机器人·视觉检测·conda·控制
TechWayfarer14 分钟前
边缘计算节点的IP管理:如何精准定位全球部署的AI推理节点?
人工智能·tcp/ip·边缘计算
未来转换23 分钟前
基于A2A协议的生产应用实践指南(Java)
java·开发语言·算法·agent
财经资讯数据_灵砚智能30 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年4月20日
人工智能·python·信息可视化·自然语言处理·ai编程
j_xxx404_31 分钟前
【AI大模型入门(二)】提示词工程进阶
人工智能·ai·prompt
谭欣辰38 分钟前
AC自动机:多模式匹配的高效利器
数据结构·c++·算法
程序员cxuan40 分钟前
vibe coding 凉了,wish coding 来了
人工智能·后端·程序员