【机器学习】机器学习的基本分类-强化学习-策略梯度(Policy Gradient,PG)

Policy Gradient(策略梯度)是强化学习中基于策略的优化方法,通过直接优化策略函数来最大化累积回报。与基于值的强化学习方法(如 Q-Learning 或 DQN)不同,Policy Gradient 不显式地学习状态值函数 V(s) 或动作值函数 Q(s, a),而是直接优化策略 的参数 θ。


核心思想

直接建模策略
  • 策略 是一个概率分布函数,描述了在状态 s 下采取动作 a 的概率。
  • 策略函数可以是任何可微的函数(如神经网络)。
目标函数
  • 目标是最大化累积期望回报 J(θ):

  • 通过梯度上升更新策略参数 θ。

策略梯度定理
  • 策略梯度的形式:

  • 其中 是从时间步 t 开始的累积回报,用于指导更新方向。


策略梯度算法

基本步骤
采样轨迹
  • 通过当前策略 与环境交互,生成一批轨迹(状态、动作、奖励序列)。
计算回报
  • 对每条轨迹计算累积回报 ,例如:

计算梯度
  • 对于每个状态-动作对,计算策略梯度:

更新策略参数
  • 使用梯度上升(或梯度下降的负值)更新策略参数 θ:


伪代码

python 复制代码
Initialize policy network with random weights θ

for episode in range(max_episodes):
    Generate trajectories by interacting with the environment using policy πθ
    Compute returns G_t for each step in the trajectories
    Compute policy gradient:
        ∇θ J(θ) = (1/N) * Σ [∇θ log πθ(a_t | s_t) * G_t]
    Update policy network:
        θ ← θ + α * ∇θ J(θ)

优势与不足

优势
连续动作空间适用性
  • 可直接处理连续动作空间,而基于值的方法需要离散化动作空间。
策略随机性
  • 随机策略可以自然地处理探索与利用的权衡问题。
易于扩展
  • 可以扩展到 Actor-Critic 方法(结合值函数的策略梯度)。
不足
高方差
  • 策略梯度估计的方差较高,需要大量采样来稳定更新。
收敛性较慢
  • 对于复杂环境,单纯的策略梯度方法收敛较慢。
数据利用效率低
  • 每次更新策略仅利用采样到的轨迹,未充分使用历史数据。

改进方法

REINFORCE
  • 使用完整的累积回报 代替真实环境奖励。
基线(Baseline)
  • 减少梯度方差的一种方法是引入基线函数 b(s),更新规则变为:

Actor-Critic
  • 结合值函数,使用 Q(s,a) 或 V(s) 来引导策略梯度更新。
Trust Region Policy Optimization (TRPO)
  • 限制策略更新的幅度,防止策略更新过大导致性能退化。
Proximal Policy Optimization (PPO)
  • 提高更新效率的同时,确保策略更新的稳定性。

应用场景

机器人控制
  • 连续动作控制问题,如机械臂操作和移动机器人导航。
游戏 AI
  • 策略梯度适用于具有复杂动作的游戏场景。
推荐系统
  • 动态地为用户提供推荐,优化长期回报。
金融交易
  • 策略优化股票交易中的买卖时机。
相关推荐
jedi-knight18 小时前
AGI时代下的青年教师与学术民主化
人工智能·python·agi
ManageEngineITSM18 小时前
IT服务台为什么越忙越低效?
人工智能·自动化·excel·itsm·工单系统
程砚成18 小时前
小微美业的数字化突围:一款轻量工具,如何让小店告别经营焦虑?
人工智能
IT_陈寒18 小时前
为什么我的Vite热更新老是重新加载整个页面?
前端·人工智能·后端
zhaoshuzhaoshu19 小时前
人工智能(AI)发展史:详细里程碑
人工智能·职场和发展
Luke~19 小时前
阿里云计算巢已上架!3分钟部署 Loki AI 事故分析引擎,SRE 复盘时间直接砍掉 80%
人工智能·阿里云·云计算·loki·devops·aiops·sre
weixin_1562415757619 小时前
基于YOLOv8深度学习花卉识别系统摄像头实时图片文件夹多图片等另有其他的识别系统可二开
大数据·人工智能·python·深度学习·yolo
QQ6765800819 小时前
AI赋能轨道交通智能巡检 轨道交通故障检测 轨道缺陷断裂检测 轨道裂纹识别 鱼尾板故障识别 轨道巡检缺陷数据集深度学习yolo第10303期
人工智能·深度学习·yolo·智能巡检·轨道交通故障检测·鱼尾板故障识别·轨道缺陷断裂检测
小陈工19 小时前
2026年4月7日技术资讯洞察:下一代数据库融合、AI基础设施竞赛与异步编程实战
开发语言·前端·数据库·人工智能·python
tq108619 小时前
组织的本质:从科层制到伴星系统的决断理论
人工智能