强化学习基础（RL）笔记

RL 简介

(1) 定义

强化学习（Reinforcement Learning） 是一种机器学习方法，用于解决需要在一定环境下通过与环境交互来学习最有行为策略的问题。其核心思想是通过试错和奖励机制来指导智能体（Agent）学习如何在不同情境下采取行动，以最大化长期累积奖励

(2) 强化学习流程

强化学习中的 agent 用来表示做决策的机器，相比于传统的模型，agent 可以感知周围的环境并通过做决策来直接改变这个环境。一般来说，在经典的强化学习中 agent 的实现可以用一些简单的 MLP、RNN、CNN 等神经网络实现，与现在流行的 LLM-based Agent 有区别

最终目标是：找到一个策略，这个策略根据当前观测到的环境状态和奖励反馈，来选择最佳的动作

(3) 强化学习的独特性

一般的有监督学习任务，目标是找到一个最优的模型函数，使其在训练数据集上最小化一个给定的损失函数；相比之下，强化学习的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值。策略的价值可以等价转换成奖励函数在策略的占用度量（这里简单理解策略的占用度量就是策略的分布即可）上的期望

二者优化的途径是不同的，有监督学习直接通过优化模型对于数据特征的输出来优化目标，即修改目标函数而数据分布不变；强化学习则通过该改变策略来调整智能体与环境交互数据的分布，即修改数据分布而目标函数不变（一个学模型，一个学策略）

(4) 强化学习的分类

以数据来划分：
- **Online：**agent 一边与环境交互收集轨迹样本一边学习策略
- **Offline：**agent 学习用到的轨迹样本是提前收集好的，作为一个 offline dataset 提供给 agent，学习策略过程不涉及环境交互
以采样策略和更新策略划分
- **On-Policy：**用来采样的行为策略和用这些数据更新的目标策略是同一个策略，例如 SARSA
- **Off-Policy：**用来采样的行为策略和用这些数据更新的目标策略不是同一个策略，例如 Q-learning
以需不需要环境动态划分
- **Model-based：**环境动态已知，可以得到环境状态转移方程、奖励函数的模型，Agent 不需要真正的和环境交互学习策略
- **Model-free：**环境动态未知，不需要学习状态转移，通过 Agent 与环境交互学习策略
以如何学习策略划分（Value-based and Policy-based 见后述）

RL 基础概念

(1) 马尔可夫决策过程

强化学习解决实际问题的第一步就是把实际问题抽象成一个 Markov Decision Process（MDP）

马尔可夫决策过程由五元组 $<S,A,P,r,\gamma>$ 构成，其中 $S$ 是状态的集合，$A$ 是智能体动作的集合，$P(s'|s,a)$ 是状态转移函数在状态 $s$ 执行动作 $a$ 之后转移到状态 $s'$ 的概率，$r(s,a)$ 是即时奖励函数取决于状态和动作，$\gamma$ 是折扣因子（未来第 t 步的奖励需要乘上 $\gamma^t$ 来降低影响）

策略用 $\pi$ 表示，其相当于在输入状态情况下采取不同动作的概率。当一个动作是确定性策略时，它在每个状态时只输出一个确定性的动作；当一个策略是随机性策略时，它在每个状态的输出是关于动作的概率分布，然后根据该分布进行采样就可以得到一个动作

(2) 价值函数

状态价值函数 $V(s)$： 从一个 state 出发，对各个 trajectory 的回报求期望。公式为 $v_\pi(s)=E(G_t|S_t=s)$，其表示从状态 $s$ 出发，遵循策略 $\pi$ 时，未来所有回报的期望总和
**状态动作价值函数 $Q(s,a)$：**状态-动作值函数评估的是在给定策略下，在某个状态 s 执行某个动作 a 后未来所有回报的期望总和

当且仅当某时刻的状态只取决于上一时刻的状态时，一个随机过程被称为具有马尔可夫性质

(3) 价值估计方法

贝尔曼方法： $Q^*(s,a)=\sum_{s'}P(s'|s,a) $R(s,a,s')+\\gamma \\ max_{a'}Q\^\*(s',a')$ $

这里 $*$ 表示最优的，$P(s'|s,a)$ 表示状态转移概率，因为环境可能是随机的，我们需要考虑所有的可能性，所以我们需要对所有可能的下一个状态 $s'$ 进行加权求和，$R(s,a,s')$ 表示即时奖励，它表示状态 $s$ 执行动作 $a$ 并且转移到状态 $s'$ 之后可以立刻获得的回报；最后的 $max_{a'}Q^*(s',a')$ 是方程的精髓，其表示了下一个状态的最大未来价值

一句话总结：在状态 $s$ 选择动作 $a$ 的奖励 = 你马上能获得的奖励+未来所有可能的新状态 $s'$ 的最大价值，并根据其出现概率和折扣因子进行加权
**蒙特卡洛方法：**蒙特卡洛方法也被称为统计模拟方法，是一种基于概率统计的数据计算方法。等一次完整过程结束后，计算整条路径的真实回报，对于每个状态，MC 算法在 MDP 上采样很多条策略最后求期望值（只要足够多就逼近真实）

基础学习方法

(1) 动态规划方法

动态规划是一种 model-based 方法，要求事先知道环境的状态转移函数和奖励函数，即 MDP 过程已知，这种情况下 Agent 并不需要与环境真正交互，直接利用 DP 就可以求解最优策略

**策略迭代算法：**分为两步，一是策略评估，先固定一个策略，基于贝尔曼方法计算当前策略的价值函数（需要遍历每一个状态，经过多轮迭代之后状态价值函数收敛）；二是策略改进，在当前价值函数下选择回报最大的动作。然后循环往复，直至选择最佳策略
**价值迭代算法：**值迭代就是解贝尔曼方程的算法，在每一个状态贪心的选择动作价值函数最大的动作来得到改进后的策略（遍历动作选最大动作价值函数）

知道 MDP 与环境动态，奖励会从终点向前传播

(2) 时序差分方法

实际交互，一般只考虑实际的一步动作的奖励

时序差分是一种 model-free 方法啊，此时写不出 MDP 的状态转移方程，只能通过 agent 与环境交互采样得到的数据来学习策略（实际中大多数环境的状态转移方程都写不出来，所以 model-free 方法应用多）

时序差分方法和蒙特卡洛的相似之处在于可以从样本数据中学习，不需要事先知道环境；和动态规划的相似之处在于根据贝尔曼方程的思想，利用后续状态的价值估计来更新当前状态的估计

SARSA 算法： SARSA 是一种在线（on-policy）学习算法。在更新 Q 函数时，它使用了智能体实际采取的下一个动作 $a'$ 的动作价值：$Q_t(s', a')$。这意味着 SARSA 在学习过程中会考虑智能体当前的策略。因此，SARSA 学到的策略与智能体在训练过程中实际执行的策略密切相关

**SARSA-$\lambda$ 算法：**考虑多步时序差分（传统是只考虑一步）

$\epsilon-greedy$ 算法 ：选择动作，兼顾探索和利用，使用一个探索率小量 $\epsilon$ 来控制利用和探索的比例：生成一个 0-1 的随机数，如果小于 $\epsilon$ 就在所有可能动作中随机选择一个，不然就选择 $Q$ 最大的

(5) Q-learning 算法（时序差分的一种，很重要所以单列）

在一些真实的场景中我们一开始完全不知道状态转移概率 $P$ 和奖励函数 $R$ 的完整分布，但 Q-learning 不需要知道 $P,R$，而是在环境中实际探索、采样来学习

它会按照以下公式来更新 $Q$ 的估计值：

$Q(s,a)\leftarrow Q(s,a)+\alpha(r+\gamma \ \max_{a'}Q(s',a')-Q(s,a))$

公式说明：

具体而言，他做了一个非常关键的简化，不计算期望，而是用实际观测到的样本来代替它。当智能体从 $s$ 执行 $a$ 得到一个具体的 $r$ 和 $s$ 时，这个组合 $(s,a,r,s')$ 就是对环境真实动态的一次采样。然后 Q-learning 用这个样本更新 Q 值，与贝尔曼公式相比，其中 $r$ 是对 $R(s,a,s')$ 的一次采样，$max_{a'}Q(s',a')$ 是对 $max_{a'}Q^*(s',a')$ 的当前估计

可以看到在更新公式中，左边是旧知识，右边是新知识。$\alpha$ 表示学习率，如果 $\alpha$ 很小，智能体学习的比较慢，更相信过去的经验；反之

其核心是维护一个 Q-table，该表格记录了在每个状态 s 之下执行每个可能得动作 a 之后能够获得的可能的未来奖励的期望值。Agent 在执行任务的时候只需要查询 Q-table，选择在当前状态下 Q 值最大的那个动作执行

python 复制代码

class QLearning:
	def __init__(self, ncol, nrow, alpha, gamma, n_action=4):
        self.Q_table = np.zeros([nrow*ncol, n_action])
        self.n_action = n_action
        self.alpha = alpha
        self.gamma = gamma
        self.epsilon = epsilon
        
   	def take_action(self, state):
        if np.random().random() < self.epsilon:
            action = np.random.randint(self.n_action)
        else:
            action = np.argmax(self.Q_table[state])
        return action
    
    def best_action(self, state):
        Q_max = np.max(self.Q_table(state))
        a = [0 for _ in range(self.n_action)]
        for i in range(self.n_action):
            if self.Q_table[state, i] == Q_max:
                a[i] = 1
        return a
    
    def update(self, s0, a0, r, s1):
        td_error = r + self.gamma * max(self.Q_table[s1]) - self.Q_table[s0, a0]
        self.Q_table[s0, a0] += self.alpha * td_error

DQN

(1) 概念

前面讲到 Q-learning 算法使用表格来记录每个状态动作对的 Q 值，然后每次更新表格中对应位置的值就行了。但是如果状态动作空间非常大或者连续变量，那表格法就不能使用了。这个时候就可以用参数化的神经网络来拟合 Q 值函数，由此诞生了 DQN

DQN 使用参数为 w 的神经网络近似 Q 函数，表示为 $Q_w(s,a)$，我们需要让 Q 值网络的输出与 TD 目标接近，因此可以使用均方误差（无监督学习经常用到，MSEloss）作为损失函数，形式如下：

$L_{DQN}=\frac{1}{2N}\sum_{i=1}^{N} $Q_w(s_i,a_i)-(r_i+\\gamma \\ \\max_{a'}Q(s',a'))$ ^2$

(2) 经验回放

维护一个 Replay Buffer ，其中存储 $<s,a,r,s'>$ 四元组的样本，先进先出，一般提前订好采样数量和方法。训练的时候则从 Replay Buffer 中采样 batch 进行训练

**好处：**使样本满足独立假设，从 MDP 中交互采样的数据不满足独立假设，因为这一时刻的状态和上一时刻的状态有关。非独立同分布的数据会让网络拟合到最近训练的数据上，而经验回放可以打破样本之间的相关性，让其满足独立假设

(3) 目标网络

由于 DQN 更新的目标是让 $Q_w(s,a)$ 逼近 TD 目标 $r+\gamma \ Q_w(s',a')$，但是我们发现这两部分都是同一个 Q 值神经网络在计算，更新网络参数的时候相目标也在改变，相当于我一边追，目标一边跑，这种 Target Shift 现象很容易导致神经网络训练不稳定

因此 DQN 引入一个目标网络 $Q_{w-}$ 来计算 TD 目标 $y_i = r_i + \gamma \max_{a} Q_{\omega^-}(s_{i+1}, a)$，初始化为与 Q 值网络一样，但不像 Q 值网络一样每一步都更新参数，而是每隔固定步数直接复制 Q值网络参数，这样就能一定程度保证训练稳定性了

综上所述，DQN 算法的具体流程如下：

用随机的网络参数 $\omega$ 初始化网络 $Q_\omega(s, a)$
复制相同的参数 $\omega^- \leftarrow \omega$ 来初始化目标网络 $Q_{\omega'}$
初始化经验回放池 $R$
for 序列 $e = 1 \rightarrow E$ do
- 获取环境初始状态 $s_1$
- for 时间步 $t = 1 \rightarrow T$ do
  - 根据当前网络$Q_\omega(s, a)$以$\epsilon$-贪婪策略选择动作 $a_t$
  - 执行动作$a_t$，获得回报$r_t$，环境状态变为 $s_{t+1}$
  - 将$(s_t, a_t, r_t, s_{t+1})$存储进回放池 $R$ 中
  - 若$R$中数据足够，从$R$中采样$N$个数据 $\{(s_i, a_i, r_i, s_{i+1})\}_{i=1,\dots,N}$
  - 对每个数据，用目标网络计算 $y_i = r_i + \gamma \max_{a} Q_{\omega^-}(s_{i+1}, a)$
  - 最小化目标损失 $L = \frac{1}{2N} \sum_{i}(y_i - Q_\omega(s_i, a_i))^2$，以此更新当前网络 $Q_\omega$
  - 更新目标网络
- end for
end for

策略梯度算法

DQN 系列属于基于值的算法（Value-based），而策略梯度方法是基于策略的算法（Policy-based）

Value-based 算法遇到的问题：$Q(s,a)$ 的输入 $s$ 是智能体的感知态 $s$，而非环境的真实状态，所有共享同一感知态 $s$ 的真实状态，其动作 $a$ 的 Q 值会被混合计算

因为当我们使用特征来描述状态空间中的某一个状态时，有可能因为个体观测的限制或者建模的局限，导致真实环境下本来不同的两个状态却再我们建模后拥有相同的特征描述，进而很有可能导致我们的 Value-based 方法无法得到最优解

那么如何直接显式学习策略呢？这里我们将策略参数化 $\pi_\theta(s)=P(A|s;\theta)$，通过优化 $\theta$ 来让策略变好

定义一个目标函数 $J(\theta)=\sum_\tau P(\tau,\theta)R(\tau)$，通过梯度上升来让 $J(\theta)$ 最大。其中 $\tau$ 代表一个 trajectory 轨迹，对目标函数 $J(\theta)$ 求导后得到一个本质上是期望的式子，再根据大数定律得到策略梯度定理：$\nabla_\theta J(\theta)=\mathbb{E}{\pi\theta} $Q\^{\\pi_\\theta}(s,a)\\nabla_\\theta \\log\\pi_\\theta(a\|s)$ $

基于策略定理，REINFORCE 算法采用蒙特卡洛方法来估计 $Q^{\pi_\theta}(s,a)$，对于一个有限步数的环境来说，REINFORCE 算法的策略梯度为：

$\nabla_\theta J(\theta)=\mathbb{E}{\pi\theta} $\\sum_{t=0}\^T(\\sum_{t=t'}\^T\\gamma\^{t'-t}r_{t'})\\nabla_\\theta \\log\\pi_\\theta(a\|s)$ $

通过多次采样轨迹来逼近期望，$\gamma$ 和 $r$ 前面解释过了

REINFORCE 算法的具体算法流程如下：

初始化策略参数
for 序列 $e=1\to E$ do :
- 用当前策略 $\pi_\theta$ 采样轨迹 $\{s_1,a_1,r_1,s_2,a_2,r_2,\cdots,s_T,a_T,r_T\}$
- 计算当前轨迹每个时刻往后的回报 $\sum_{t'=t}^T\gamma^{t'-t}r_{t'}$，记为 $\psi_t$
- 对 $\theta$ 进行更新，$\theta = \theta+\alpha\sum_t^T\psi_t\nabla_\theta\log\pi_\theta(a_t|s_t)$
end for

Actor-Critic 算法

回顾一下策略梯度算法的公式，REINFORCE 算法使用蒙特卡洛方法（MC）去估计公式中的 Q 值，那么如果不用 MC 方法，而是学习一个 Q 值函数的话那就相当于结合了 Value-based 和 Policy-based 的方法。此时，用 actor 代表策略，用 critic 代表值函数，就有了 Actor-Critic 算法

可以简单理解 Actor-Critic 算法的思想就是：Actor 与环境交互采样轨迹，Critic 评判 Actor 状态、动作的好坏，指导其策略更新的步长和方向

首先我们知道 $\psi_t$ 是对当前 agent 的状态、动作的价值判断，其可以代表一种 Critic 给出的指导。首先，我们需要理解下面这些式子：

轨迹的总回报： $\sum_{t'=0}^T\gamma^{t'}r_{t'}$
动作 $a_t$ 之后的回报： $\sum_{t'=t}^T\gamma^{t'-t}r_{t'}$
加入基线的改进版本： $\sum_{t'=t}^T\gamma^{t'-t}r_{t'}-b(s_t)$

其中基线函数 $b(s_t)$ 的作用是作为一个参考值，用来减去那些不依赖于当前动作选择的"背景回报"。此外减去基线值可以让不同动作的分数更加集中，从而减小方差。一个比较常用的基线就是状态价值函数 $V(s_t)$（由其定义可知相当于回报的平均期望，那每一个动作的回报只会优于或劣于它）
动作价值函数： $Q^{\pi_\theta}(s_t,a_t)$

其定义是期望值，这里就是学习一个 Q 值网络作为 Critic 学习这个期望
优势函数： $A^{\pi_\theta}(s_t,a_t)$

优势函数就是从动作价值函数 Q 值函数减去作为基线的状态价值函数 V 值函数，意义是在当前状态下选择当前动作比起平均动作的优势（正负代表优于或劣于平均动作），所以采用优势函数作为 Critic 是更加合理的指导策略更新的方法
时序差分： $r_t+\gamma V^{\pi_\theta}(s_{t+1})-V^{\pi_\theta}(s_t)$

如果要用优势函数来作为 Critic 的话，就意味着我们要同时学习 Q 和 V 两个函数的网络，估计不准确的风险直接变为两倍。因此，在实际的 Actor-Critic 算法中，我们利用 $Q=r+\gamma V$ 时序差分来近似优势函数的

那么得到 Actor-Critic 的策略梯度之后，我们可以根据策略梯度更新 Actor，更新 Critic 则根据前面讲过的 DQN 的方式更新，MSE 损失如下：$L(w)=\frac{1}{2}(r+\gamma V_w(s_{t+1})-V_w(s_t))^2$

Actor-Critic 算法的具体流程如下：

初始化策略网络参数 $\theta$，价值网络参数 $\omega$
for 序列 $e = 1 \rightarrow E$ do：
- 用当前策略 $\pi_\theta$ 采样轨迹 $\{s_1, a_1, r_1, s_2, a_2, r_2, \dots\}$
- 为每一步数据计算 $\delta_t = r_t + \gamma V_\omega(s_{t+1}) - V_\omega(s_t)$
- 更新价值参数 $\omega = \omega + \alpha_\omega \sum_t \delta_t \nabla_\omega V_\omega(s_t)$
- 更新策略参数 $\theta = \theta + \alpha_\theta \sum_t \delta_t \nabla_\theta \log \pi_\theta(a_t|s_t)$
end for

PPO 算法

(1) TRPO 算法

在讲 PPO 算法之前先讲一下 PPO 的前身 TRPO 算法（信赖域策略优化）。之前讲到的策略梯度算法和 Actor-Critic 算法都是沿着策略梯度的方向更新策略参数 $\theta$，这就带来一个问题，策略更新步长太长可能导致策略突然变坏，进而影响训练效果。所以 TRPO 就提出要找到一块信赖域 Trust Region，只在这里面更新策略，从而保障策略安全更新

TRPO 推导以及近似计算非常复杂难懂，这里只看 TRPO 的优化目标：

$\theta_{k+1}=\arg\max L(\theta_k,\theta)$

优化目标用到了重要性采样的性质，这个在 PPO 里面讲解。整体看上述优化目标就是使用优势函数引导策略优化，同时使得当前

什么是 KL 散度？

总体回顾

强化学习的核心就在于贝尔曼方程 $Q^*(s,a)=\sum_{s'}P(s'|s,a) $R(s,a,s')+\\gamma \\ max_{a'}Q\^\*(s',a')$ $

回顾一下，TD-target 的意义是当前状态下采取最优动作所得到的回报，用 $r+\gamma \ \max_{a'}Q(s',a')$ 表示，学习的目标函数应该逼近它；传统的时序差分方法使用 TD-error 来更新 Q 值函数 $Q(s,a)\leftarrow Q(s,a)+\alpha(r+\gamma \ \max_{a'}Q(s',a')-Q(s,a))$，DQN 通过神经网络学习 Q 值函数 $Q_w(s,a)$ 计算其与 TD-target 的 MSE 损失

那么为什么 TD-target 能够表示最优呢，因为它是根据贝尔曼方程，从最后一步的最优回报（Outcome Reward）往前递归出来的

策略梯度方法主要是用参数 $\theta$ 学习策略，通过最大化目标函数 $J(\theta)=\sum_\tau P(\tau,\theta)R(\tau)$，该目标函数表示策略 $\tau$ 的期望回报。通过对该函数求导并利用大数定理可以计算得到策略梯度定理 $\nabla_\theta J(\theta)=\mathbb{E}{\pi\theta} $Q\^{\\pi_\\theta}(s,a)\\nabla_\\theta \\log\\pi_\\theta(a\|s)$ $。又因为 REINFORCE 通过实际采样策略轨迹来逼近期望，因此其策略梯度为 $\nabla_\theta J(\theta)=\mathbb{E}{\pi\theta} $\\sum_{t=0}\^T(\\sum_{t=t'}\^T\\gamma\^{t'-t}r_{t'})\\nabla_\\theta \\log\\pi_\\theta(a\|s)$ $，更新方式为 $\theta = \theta+\alpha\sum_t^T\psi_t\nabla_\theta\log\pi_\theta(a_t|s_t)$