机器学习之策略梯度

引言

策略梯度（Policy Gradient）方法是强化学习中的一类重要算法，其核心思想是直接对策略参数进行优化，而不是通过值函数间接优化策略。与基于值的方法（如Q-Learning、DQN）不同，策略梯度方法可以直接处理连续动作空间，并且能够学习随机策略。

策略梯度方法的理论基础源于统计学中的梯度上升算法，通过采样轨迹来估计策略梯度的期望，然后沿着梯度方向更新策略参数。

强化学习基础

马尔可夫决策过程 (MDP)

强化学习问题通常被建模为马尔可夫决策过程（Markov Decision Process, MDP），由五元组 ( S , A , P , R , γ ) (S, A, P, R, \gamma) (S,A,P,R,γ) 定义：

S S S：状态空间
A A A：动作空间
P ( s ′ ∣ s , a ) P(s'|s,a) P(s′∣s,a)：状态转移概率
R ( s , a ) R(s,a) R(s,a)：奖励函数
γ ∈ $0 , 1$ \gamma \in $0,1$ γ∈ $0,1$ ：折扣因子

策略

策略 π θ ( a ∣ s ) \pi_\theta(a|s) πθ(a∣s) 是一个从状态到动作概率分布的映射，其中 θ \theta θ 是策略参数：

π θ ( a ∣ s ) = P ( A = a ∣ S = s , θ ) \pi_\theta(a|s) = P(A=a | S=s, \theta) πθ(a∣s)=P(A=a∣S=s,θ)

对于确定性策略， π θ ( s ) \pi_\theta(s) πθ(s) 直接输出动作；对于随机策略，输出动作的概率分布。

目标函数

强化学习的目标是找到一个策略，使得累积期望回报最大化：

J ( θ ) = E τ ∼ π θ $R ( τ )$ = E τ ∼ π θ $\sum t = 0 T γ t r t$ J(\theta) = \mathbb{E}{\tau \sim \pi\theta} $R(\\tau)$ = \mathbb{E}{\tau \sim \pi\theta}\left $\\sum_{t=0}\^T \\gamma\^t r_t\\right$ J(θ)=Eτ∼πθ $R(τ)$ =Eτ∼πθ $t=0\sumTγtrt$

其中 τ = ( s 0 , a 0 , r 0 , s 1 , a 1 , r 1 , ... , s T ) \tau = (s_0, a_0, r_0, s_1, a_1, r_1, \dots, s_T) τ=(s0,a0,r0,s1,a1,r1,...,sT) 是一条轨迹。

策略梯度理论基础

策略梯度定理

策略梯度定理给出了目标函数关于策略参数的梯度：

∇ θ J ( θ ) = E τ ∼ π θ $\sum t = 0 T \nabla θ log π θ ( a t ∣ s t ) \cdot R ( τ )$ \nabla_\theta J(\theta) = \mathbb{E}{\tau \sim \pi\theta}\left $\\sum_{t=0}\^T \\nabla_\\theta \\log \\pi_\\theta(a_t\|s_t) \\cdot R(\\tau)\\right$ ∇θJ(θ)=Eτ∼πθ $t=0\sumT\nablaθlogπθ(at∣st)\cdotR(τ)$

这个定理表明，我们可以通过采样轨迹来估计策略梯度。

证明思路

目标函数可以重写为：

J ( θ ) = ∑ τ P ( τ ∣ θ ) R ( τ ) J(\theta) = \sum_{\tau} P(\tau|\theta) R(\tau) J(θ)=τ∑P(τ∣θ)R(τ)

其中 P ( τ ∣ θ ) P(\tau|\theta) P(τ∣θ) 是轨迹 τ \tau τ 的概率：

P ( τ ∣ θ ) = P ( s 0 ) ∏ t = 0 T − 1 π θ ( a t ∣ s t ) P ( s t + 1 ∣ s t , a t ) P(\tau|\theta) = P(s_0) \prod_{t=0}^{T-1} \pi_\theta(a_t|s_t) P(s_{t+1}|s_t, a_t) P(τ∣θ)=P(s0)t=0∏T−1πθ(at∣st)P(st+1∣st,at)

对目标函数求梯度：

∇ θ J ( θ ) = ∑ τ ∇ θ P ( τ ∣ θ ) R ( τ ) = ∑ τ P ( τ ∣ θ ) ∇ θ P ( τ ∣ θ ) P ( τ ∣ θ ) R ( τ ) = ∑ τ P ( τ ∣ θ ) ∇ θ log ⁡ P ( τ ∣ θ ) R ( τ ) = E τ ∼ π θ $\nabla θ log P ( τ ∣ θ ) R ( τ )$ \begin{aligned} \nabla_\theta J(\theta) &= \sum_{\tau} \nabla_\theta P(\tau|\theta) R(\tau) \\ &= \sum_{\tau} P(\tau|\theta) \frac{\nabla_\theta P(\tau|\theta)}{P(\tau|\theta)} R(\tau) \\ &= \sum_{\tau} P(\tau|\theta) \nabla_\theta \log P(\tau|\theta) R(\tau) \\ &= \mathbb{E}{\tau \sim \pi\theta}\left $\\nabla_\\theta \\log P(\\tau\|\\theta) R(\\tau)\\right$ \end{aligned} ∇θJ(θ)=τ∑∇θP(τ∣θ)R(τ)=τ∑P(τ∣θ)P(τ∣θ)∇θP(τ∣θ)R(τ)=τ∑P(τ∣θ)∇θlogP(τ∣θ)R(τ)=Eτ∼πθ $\nablaθlogP(τ∣θ)R(τ)$

由于 log ⁡ P ( τ ∣ θ ) = log ⁡ P ( s 0 ) + ∑ t = 0 T − 1 $log π θ ( a t ∣ s t ) + log P ( s t + 1 ∣ s t , a t )$ \log P(\tau|\theta) = \log P(s_0) + \sum_{t=0}^{T-1} \left $\\log \\pi_\\theta(a_t\|s_t) + \\log P(s_{t+1}\|s_t, a_t)\\right$ logP(τ∣θ)=logP(s0)+∑t=0T−1 $logπθ(at∣st)+logP(st+1∣st,at)$ ，只有策略项与 θ \theta θ 相关：

∇ θ log ⁡ P ( τ ∣ θ ) = ∑ t = 0 T − 1 ∇ θ log ⁡ π θ ( a t ∣ s t ) \nabla_\theta \log P(\tau|\theta) = \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t|s_t) ∇θlogP(τ∣θ)=t=0∑T−1∇θlogπθ(at∣st)

因此：

∇ θ J ( θ ) = E τ ∼ π θ $\sum t = 0 T - 1 \nabla θ log π θ ( a t ∣ s t ) R ( τ )$ \nabla_\theta J(\theta) = \mathbb{E}{\tau \sim \pi\theta}\left $\\sum_{t=0}\^{T-1} \\nabla_\\theta \\log \\pi_\\theta(a_t\|s_t) R(\\tau)\\right$ ∇θJ(θ)=Eτ∼πθ $t=0\sumT-1\nablaθlogπθ(at∣st)R(τ)$

优势函数

为了降低方差，可以使用优势函数（Advantage Function）替代总回报：

A π ( s t , a t ) = Q π ( s t , a t ) − V π ( s t ) A^\pi(s_t, a_t) = Q^\pi(s_t, a_t) - V^\pi(s_t) Aπ(st,at)=Qπ(st,at)−Vπ(st)

其中 Q π ( s t , a t ) Q^\pi(s_t, a_t) Qπ(st,at) 是动作值函数， V π ( s t ) V^\pi(s_t) Vπ(st) 是状态值函数。

使用优势函数的策略梯度：

∇ θ J ( θ ) = E τ ∼ π θ $\sum t = 0 T - 1 \nabla θ log π θ ( a t ∣ s t ) A π ( s t , a t )$ \nabla_\theta J(\theta) = \mathbb{E}{\tau \sim \pi\theta}\left $\\sum_{t=0}\^{T-1} \\nabla_\\theta \\log \\pi_\\theta(a_t\|s_t) A\^\\pi(s_t, a_t)\\right$ ∇θJ(θ)=Eτ∼πθ $t=0\sumT-1\nablaθlogπθ(at∣st)Aπ(st,at)$

REINFORCE算法

REINFORCE（蒙特卡洛策略梯度）是最简单的策略梯度算法，由Williams于1992年提出。

算法流程

初始化策略参数 θ \theta θ

对于每个回合：

按照策略 π θ \pi_\theta πθ 采样一条完整轨迹 τ \tau τ
计算每个时间步的回报 G t = ∑ k = t T γ k − t r k G_t = \sum_{k=t}^T \gamma^{k-t} r_k Gt=∑k=tTγk−trk
对于每个时间步 t t t：

计算梯度： ∇ θ log ⁡ π θ ( a t ∣ s t ) ⋅ G t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t ∇θlogπθ(at∣st)⋅Gt

更新策略参数： θ ← θ + α ⋅ ∑ t ∇ θ log ⁡ π θ ( a t ∣ s t ) ⋅ G t \theta \leftarrow \theta + \alpha \cdot \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot G_t θ←θ+α⋅∑t∇θlogπθ(at∣st)⋅Gt

数学表达

参数更新规则：

θ ← θ + α ∑ t = 0 T − 1 ∇ θ log ⁡ π θ ( a t ∣ s t ) G t \theta \leftarrow \theta + \alpha \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t|s_t) G_t θ←θ+αt=0∑T−1∇θlogπθ(at∣st)Gt

其中 α \alpha α 是学习率， G t G_t Gt 是从时间步 t t t 开始的折扣累积回报：

G t = ∑ k = t T γ k − t r k G_t = \sum_{k=t}^{T} \gamma^{k-t} r_k Gt=k=t∑Tγk−trk

特点

优点：

理论基础扎实，收敛性有保证
可以直接处理连续动作空间
能够学习随机策略

缺点：

方差大，需要大量样本
只能在回合结束时更新，效率低
对超参数敏感

Actor-Critic方法

Actor-Critic方法通过引入价值函数作为Critic来估计优势函数，从而降低方差。

架构

Actor（演员） ：策略网络 π θ ( a ∣ s ) \pi_\theta(a|s) πθ(a∣s)，负责选择动作
Critic（评论家） ：价值网络 V ϕ ( s ) V_\phi(s) Vϕ(s) 或 Q ϕ ( s , a ) Q_\phi(s,a) Qϕ(s,a)，负责评估状态或动作的价值

算法流程

初始化Actor参数 θ \theta θ 和 Critic参数 ϕ \phi ϕ

对于每个回合：

对于每个时间步 t t t：

按照策略 π θ \pi_\theta πθ 选择动作 a t a_t at，执行并观察 r t , s t + 1 r_t, s_{t+1} rt,st+1
计算TD误差： δ t = r t + γ V ϕ ( s t + 1 ) − V ϕ ( s t ) \delta_t = r_t + \gamma V_\phi(s_{t+1}) - V_\phi(s_t) δt=rt+γVϕ(st+1)−Vϕ(st)
更新Critic： ϕ ← ϕ + β ⋅ δ t ⋅ ∇ ϕ V ϕ ( s t ) \phi \leftarrow \phi + \beta \cdot \delta_t \cdot \nabla_\phi V_\phi(s_t) ϕ←ϕ+β⋅δt⋅∇ϕVϕ(st)
更新Actor： θ ← θ + α ⋅ δ t ⋅ ∇ θ log ⁡ π θ ( a t ∣ s t ) \theta \leftarrow \theta + \alpha \cdot \delta_t \cdot \nabla_\theta \log \pi_\theta(a_t|s_t) θ←θ+α⋅δt⋅∇θlogπθ(at∣st)

数学表达

Critic更新（价值函数）：

ϕ ← ϕ + β δ t ∇ ϕ V ϕ ( s t ) \phi \leftarrow \phi + \beta \delta_t \nabla_\phi V_\phi(s_t) ϕ←ϕ+βδt∇ϕVϕ(st)

其中TD误差（Temporal Difference Error）为：

δ t = r t + γ V ϕ ( s t + 1 ) − V ϕ ( s t ) \delta_t = r_t + \gamma V_\phi(s_{t+1}) - V_\phi(s_t) δt=rt+γVϕ(st+1)−Vϕ(st)

Actor更新（策略）：

θ ← θ + α δ t ∇ θ log ⁡ π θ ( a t ∣ s t ) \theta \leftarrow \theta + \alpha \delta_t \nabla_\theta \log \pi_\theta(a_t|s_t) θ←θ+αδt∇θlogπθ(at∣st)

特点

优点：

方差比REINFORCE小
可以在线学习，不需要完整回合
结合了策略梯度和值函数的优点

缺点：

需要同时优化两个网络
可能存在训练不稳定问题

优势函数与基线

基线的作用

引入基线 b ( s t ) b(s_t) b(st) 可以在不改变期望的情况下降低方差：

∇ θ J ( θ ) = E τ ∼ π θ $\sum t = 0 T - 1 \nabla θ log π θ ( a t ∣ s t ) ( R ( τ ) - b ( s t ) )$ \nabla_\theta J(\theta) = \mathbb{E}{\tau \sim \pi\theta}\left $\\sum_{t=0}\^{T-1} \\nabla_\\theta \\log \\pi_\\theta(a_t\|s_t) (R(\\tau) - b(s_t))\\right$ ∇θJ(θ)=Eτ∼πθ $t=0\sumT-1\nablaθlogπθ(at∣st)(R(τ)-b(st))$

证明：

E a t ∼ π θ ( ⋅ ∣ s t ) $\nabla θ log π θ ( a t ∣ s t ) b ( s t )$ = ∑ a t π θ ( a t ∣ s t ) ∇ θ log ⁡ π θ ( a t ∣ s t ) b ( s t ) = ∑ a t π θ ( a t ∣ s t ) ∇ θ π θ ( a t ∣ s t ) π θ ( a t ∣ s t ) b ( s t ) = ∑ a t ∇ θ π θ ( a t ∣ s t ) b ( s t ) = b ( s t ) ∇ θ ∑ a t π θ ( a t ∣ s t ) = b ( s t ) ∇ θ 1 = 0 \begin{aligned} \mathbb{E}{a_t \sim \pi\theta(\cdot|s_t)}\left $\\nabla_\\theta \\log \\pi_\\theta(a_t\|s_t) b(s_t)\\right$ &= \sum_{a_t} \pi_\theta(a_t|s_t) \nabla_\theta \log \pi_\theta(a_t|s_t) b(s_t) \\ &= \sum_{a_t} \pi_\theta(a_t|s_t) \frac{\nabla_\theta \pi_\theta(a_t|s_t)}{\pi_\theta(a_t|s_t)} b(s_t) \\ &= \sum_{a_t} \nabla_\theta \pi_\theta(a_t|s_t) b(s_t) \\ &= b(s_t) \nabla_\theta \sum_{a_t} \pi_\theta(a_t|s_t) \\ &= b(s_t) \nabla_\theta 1 \\ &= 0 \end{aligned} Eat∼πθ(⋅∣st) $\nablaθlogπθ(at∣st)b(st)$ =at∑πθ(at∣st)∇θlogπθ(at∣st)b(st)=at∑πθ(at∣st)πθ(at∣st)∇θπθ(at∣st)b(st)=at∑∇θπθ(at∣st)b(st)=b(st)∇θat∑πθ(at∣st)=b(st)∇θ1=0

因此，加入基线不会改变梯度的期望，但可以降低方差。

常用基线

状态值函数基线 ： b ( s t ) = V π ( s t ) b(s_t) = V^\pi(s_t) b(st)=Vπ(st)
- 这时 R ( τ ) − b ( s t ) R(\tau) - b(s_t) R(τ)−b(st) 就是优势函数 A π ( s t , a t ) A^\pi(s_t, a_t) Aπ(st,at)
平均回报基线 ： b ( s t ) = 1 N ∑ i = 1 N R ( τ i ) b(s_t) = \frac{1}{N}\sum_{i=1}^N R(\tau_i) b(st)=N1∑i=1NR(τi)
- 使用多个轨迹的平均回报作为基线
移动平均基线：使用历史回报的移动平均

广义优势估计 (GAE)

广义优势估计（Generalized Advantage Estimation, GAE）是一种平衡偏差和方差的方法：

A ^ t G A E ( γ , λ ) = ∑ l = 0 ∞ ( γ λ ) l δ t + l \hat{A}t^{GAE(\gamma, \lambda)} = \sum{l=0}^\infty (\gamma \lambda)^l \delta_{t+l} A^tGAE(γ,λ)=l=0∑∞(γλ)lδt+l

其中 δ t = r t + γ V ϕ ( s t + 1 ) − V ϕ ( s t ) \delta_t = r_t + \gamma V_\phi(s_{t+1}) - V_\phi(s_t) δt=rt+γVϕ(st+1)−Vϕ(st) 是TD误差， λ ∈ $0 , 1$ \lambda \in $0,1$ λ∈ $0,1$ 是权衡参数。

λ = 0 \lambda = 0 λ=0：相当于TD(0)，偏差大、方差小
λ = 1 \lambda = 1 λ=1：相当于蒙特卡洛，无偏、方差大
0 < λ < 1 0 < \lambda < 1 0<λ<1：在偏差和方差之间取得平衡

常见策略梯度算法

1. Vanilla Policy Gradient (VPG)

也称为REINFORCE，是最基础的策略梯度算法。

2. Trust Region Policy Optimization (TRPO)

TRPO通过约束策略更新的幅度来保证单调改进。

核心思想：

最大化目标函数：

L ( θ ) = E s ∼ ρ θ o l d , a ∼ π θ o l d $π θ ( a ∣ s ) π θ o l d ( a ∣ s ) A θ o l d ( s , a )$ L(\theta) = \mathbb{E}{s \sim \rho{\theta_{old}}, a \sim \pi_{\theta_{old}}}\left $\\frac{\\pi_\\theta(a\|s)}{\\pi_{\\theta_{old}}(a\|s)} A_{\\theta_{old}}(s,a)\\right$ L(θ)=Es∼ρθold,a∼πθold $πθold(a∣s)πθ(a∣s)Aθold(s,a)$

受约束于：

D ˉ K L ( θ o l d ∣ ∣ θ ) ≤ δ \bar{D}{KL}(\theta{old} || \theta) \leq \delta DˉKL(θold∣∣θ)≤δ

其中 D ˉ K L \bar{D}_{KL} DˉKL 是平均KL散度。

3. Proximal Policy Optimization (PPO)

PPO是对TRPO的简化，更容易实现且性能相当。

Clipped Objective：

L C L I P ( θ ) = E t $min ⁡ ( r t ( θ ) A \^ t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A \^ t )$ L^{CLIP}(\theta) = \mathbb{E}_t\left $\\min\\left(r_t(\\theta)\\hat{A}_t, \\text{clip}(r_t(\\theta), 1-\\epsilon, 1+\\epsilon)\\hat{A}_t\\right)\\right$ LCLIP(θ)=Et $min(rt(θ)A\^t,clip(rt(θ),1−ϵ,1+ϵ)A\^t)$

其中：

r t ( θ ) = π θ ( a t ∣ s t ) π θ o l d ( a t ∣ s t ) r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} rt(θ)=πθold(at∣st)πθ(at∣st) 是概率比率
ϵ \epsilon ϵ 是裁剪参数（通常取0.1或0.2）
A ^ t \hat{A}_t A^t 是估计的优势函数

4. Actor-Critic with Eligibility Traces (A2C/A3C)

A2C (Advantage Actor-Critic)：同步的Actor-Critic算法
A3C (Asynchronous Advantage Actor-Critic)：异步的Actor-Critic算法，使用多个并行智能体

5. Soft Actor-Critic (SAC)

SAC是一种最大熵强化学习算法，在优化期望回报的同时最大化策略的熵。

目标函数：

J ( π ) = ∑ t = 0 T E ( s t , a t ) ∼ ρ π $r ( s t , a t ) + α H ( π ( \cdot ∣ s t ) )$ J(\pi) = \sum_{t=0}^T \mathbb{E}{(s_t,a_t) \sim \rho\pi}\left $r(s_t,a_t) + \\alpha \\mathcal{H}(\\pi(\\cdot\|s_t))\\right$ J(π)=t=0∑TE(st,at)∼ρπ $r(st,at)+αH(π(\cdot∣st))$

其中 α \alpha α 是温度参数， H \mathcal{H} H 是熵。

实践技巧与优化

1. 策略网络设计

策略网络通常输出动作的概率分布：

离散动作空间：使用Softmax输出
连续动作空间：输出高斯分布的均值和方差

高斯策略：

π θ ( a ∣ s ) = N ( a ; μ θ ( s ) , σ θ 2 ( s ) ) \pi_\theta(a|s) = \mathcal{N}(a; \mu_\theta(s), \sigma_\theta^2(s)) πθ(a∣s)=N(a;μθ(s),σθ2(s))

对数概率：

log ⁡ π θ ( a ∣ s ) = − 1 2 $( a - μ θ ( s ) ) 2 σ θ 2 ( s ) + 2 log σ θ ( s ) + log ( 2 π )$ \log \pi_\theta(a|s) = -\frac{1}{2}\left $\\frac{(a - \\mu_\\theta(s))\^2}{\\sigma_\\theta\^2(s)} + 2\\log \\sigma_\\theta(s) + \\log(2\\pi)\\right$ logπθ(a∣s)=−21 $σθ2(s)(a-μθ(s))2+2logσθ(s)+log(2π)$

2. 熵正则化

为了防止策略过早收敛到确定性策略，可以加入熵正则化项：

J r e g ( θ ) = J ( θ ) + α E s ∼ ρ π $H ( π θ ( \cdot ∣ s ) )$ J_{reg}(\theta) = J(\theta) + \alpha \mathbb{E}{s \sim \rho\pi} $\\mathcal{H}(\\pi_\\theta(\\cdot\|s))$ Jreg(θ)=J(θ)+αEs∼ρπ $H(πθ(\cdot∣s))$

熵的计算：

离散动作空间 ： H ( π ( ⋅ ∣ s ) ) = − ∑ a π ( a ∣ s ) log ⁡ π ( a ∣ s ) \mathcal{H}(\pi(\cdot|s)) = -\sum_a \pi(a|s) \log \pi(a|s) H(π(⋅∣s))=−∑aπ(a∣s)logπ(a∣s)
连续动作空间 ： H ( π ( ⋅ ∣ s ) ) = 1 2 log ⁡ ( 2 π e σ 2 ) \mathcal{H}(\pi(\cdot|s)) = \frac{1}{2}\log(2\pi e \sigma^2) H(π(⋅∣s))=21log(2πeσ2)

3. 学习率调度

使用学习率衰减可以提高训练稳定性：

线性衰减
指数衰减
余弦退火

4. 经验回放

虽然策略梯度通常使用在线学习，但某些变体可以使用经验回放：

Off-policy算法（如SAC、DDPG）
使用重要性采样修正分布偏移

5. 归一化

对输入和优势函数进行归一化：

输入归一化：对状态进行标准化
优势函数归一化 ： A ^ t ← A ^ t − μ σ + ϵ \hat{A}_t \leftarrow \frac{\hat{A}_t - \mu}{\sigma + \epsilon} A^t←σ+ϵA^t−μ

6. 梯度裁剪

防止梯度爆炸：

∇ θ ← clip ( ∇ θ , − c , c ) \nabla_\theta \leftarrow \text{clip}(\nabla_\theta, -c, c) ∇θ←clip(∇θ,−c,c)

7. 多步回报

使用n-step回报平衡偏差和方差：

G t ( n ) = ∑ k = 0 n − 1 γ k r t + k + γ n V ϕ ( s t + n ) G_t^{(n)} = \sum_{k=0}^{n-1} \gamma^k r_{t+k} + \gamma^n V_\phi(s_{t+n}) Gt(n)=k=0∑n−1γkrt+k+γnVϕ(st+n)

应用场景

1. 机器人控制

策略梯度方法在连续控制任务中表现优异：

机械臂控制
步行机器人
无人机飞行

2. 游戏AI

Atari游戏
围棋（AlphaGo结合了策略梯度和蒙特卡洛树搜索）
实时策略游戏

3. 自动驾驶

路径规划
决策制定
车辆控制

4. 资源调度

云计算资源分配
网络流量调度
能源管理

5. 金融交易

投资组合优化
算法交易
风险管理

总结

策略梯度方法是强化学习中的重要技术，具有以下特点：

核心优势

直接优化策略：不需要显式地学习值函数
处理连续动作：天然适用于连续动作空间
学习随机策略：可以输出概率分布，适用于需要探索的场景

主要挑战

高方差：需要大量样本才能获得稳定估计
样本效率低：相比基于值的方法，需要更多交互
训练不稳定：对超参数敏感，需要仔细调优

策略梯度方法作为强化学习的重要组成部分，在理论和实践上都有重要价值。随着算法的不断改进和计算能力的提升，策略梯度方法将在更多领域发挥重要作用。

机器学习之策略梯度