【深度学习】强化学习（六）基于值函数的学习方法

文章目录

一、强化学习问题
二、基于值函数的学习方法

一、强化学习问题

强化学习的基本任务是通过智能体与环境的交互学习一个策略，使得智能体能够在不同的状态下做出最优的动作，以最大化累积奖励。这种学习过程涉及到智能体根据当前状态选择动作，环境根据智能体的动作转移状态，并提供即时奖励的循环过程。

1、交互的对象

在强化学习中，有两个可以进行交互的对象：智能体 和环境

智能体（Agent） ：能感知外部环境的状态（State）和获得的奖励（Reward） ，并做出决策（Action）。智能体的决策和学习功能使其能够根据状态选择不同的动作，学习通过获得的奖励来调整策略。
环境（Environment）：是智能体外部的所有事物，对智能体的动作做出响应，改变状态，并反馈相应的奖励。

2、强化学习的基本要素

强化学习涉及到智能体与环境的交互，其基本要素包括状态、动作、策略、状态转移概率和即时奖励。

状态（State）：对环境的描述，可能是离散或连续的。
动作（Action）：智能体的行为，也可以是离散或连续的。
策略（Policy）：智能体根据当前状态选择动作的概率分布。
状态转移概率（State Transition Probability）：在给定状态和动作的情况下，环境转移到下一个状态的概率。
即时奖励（Immediate Reward）：智能体在执行动作后，环境反馈的奖励。

3、策略（Policy）

策略（Policy）就是智能体如何根据环境状态 𝑠 来决定下一步的动作 𝑎（智能体在特定状态下选择动作的规则或分布）。

确定性策略（Deterministic Policy） 直接指定智能体应该采取的具体动作
随机性策略（Stochastic Policy） 则考虑了动作的概率分布，增加了对不同动作的探索。

上述概念可详细参照：【深度学习】强化学习（一）强化学习定义

4、马尔可夫决策过程

为了简化描述，将智能体与环境的交互看作离散的时间序列 。智能体从感知到的初始环境 s 0 s_0 s0 开始，然后决定做一个相应的动作 a 0 a_0 a0，环境相应地发生改变到新的状态 s 1 s_1 s1，并反馈给智能体一个即时奖励 r 1 r_1 r1，然后智能体又根据状态 s 1 s_1 s1做一个动作 a 1 a_1 a1，环境相应改变为 s 2 s_2 s2，并反馈奖励 r 2 r_2 r2。这样的交互可以一直进行下去： s 0 , a 0 , s 1 , r 1 , a 1 , ... , s t − 1 , r t − 1 , a t − 1 , s t , r t , ... , s_0, a_0, s_1, r_1, a_1, \ldots, s_{t-1}, r_{t-1}, a_{t-1}, s_t, r_t, \ldots, s0,a0,s1,r1,a1,...,st−1,rt−1,at−1,st,rt,...,其中 r t = r ( s t − 1 , a t − 1 , s t ) r_t = r(s_{t-1}, a_{t-1}, s_t) rt=r(st−1,at−1,st) 是第 t t t 时刻的即时奖励。这个交互过程可以被视为一个马尔可夫决策过程（Markov Decision Process，MDP） 。

关于马尔可夫决策过程可详细参照：【深度学习】强化学习（二）马尔可夫决策过程

5、强化学习的目标函数

强化学习的目标是通过学习一个良好的策略 来使智能体在与环境的交互中获得尽可能多的平均回报 。强化学习的目标函数 J ( θ ) J(\theta) J(θ) 定义如下： J ( θ ) = E τ ∼ p θ ( τ ) [ G ( τ ) ] = E τ ∼ p θ ( τ ) [ ∑ t = 0 T − 1 γ t r t + 1 ] J(\theta) = \mathbb{E}{\tau \sim p{\theta}(\tau)}[G(\tau)] = \mathbb{E}{\tau \sim p{\theta}(\tau)}\left[\sum_{t=0}^{T-1} \gamma^t r_{t+1}\right] J(θ)=Eτ∼pθ(τ)[G(τ)]=Eτ∼pθ(τ)[t=0∑T−1γtrt+1]其中， θ \theta θ 表示策略函数的参数， τ \tau τ 表示强化学习的轨迹， γ \gamma γ 是折扣率......

这个目标函数表达的是在策略 π θ \pi_{\theta} πθ 下，智能体与环境交互得到的总回报的期望。（这个期望是对所有可能的轨迹进行的）