从零学习 RL ：初识强化学习

文章目录

- [一、RL 只是 ML 的 "强化版"](#一、RL 只是 ML 的 “强化版”)
- [二、智能体 vs 环境](#二、智能体 vs 环境)
- 三、强化学习的环境：随机世界
- 四、强化学习的目标不是单次奖励最高，而是长期总奖励期望最大
- [五、强化学习 vs 有监督学习：核心区别到底在哪？](#五、强化学习 vs 有监督学习：核心区别到底在哪？)
- 六、复盘一下

已经接触 RL 有一段时间了，做过一些 Demo 和 paper，今天想重新复盘一下 RL 的全部内容，主要用于以后回顾起来更方便些。

一、RL 只是 ML 的 "强化版"

我们都会有： "当初要是xxx就好了""早知道xxx" 这样的后悔。

人生就是由一连串的 选择（决策） 组成的，每一次选择都会带来不同的"后果"，而我们会根据这些后果调整下一次的选择------这其实就是最朴素的"强化学习思维"。

在ML里，有两类核心任务：

预测任务：比如用历史数据预测明天的天气、用照片识别这是猫还是狗。核心是"根据已知数据猜答案"，猜完就结束，不会影响未来。
决策任务 ：比如让机器人自己学会走路、让 AI 下围棋赢人类、让无人车安全导航。核心是 **"通过一次次试错，学会做能带来长期好处的选择" **，也就是 序贯决策 ------强化学习的核心。

强化学习 = 机器通过与环境交互试错，学会做最优决策的过程

二、智能体 vs 环境

强化学习里，只有两个核心角色：智能体（Agent） 和 环境（Environment） 。

它们的关系，就像"玩家"和"游戏世界"的关系。

1. 核心角色定义

智能体（Agent） ：做决策的"主角"，可以是机器人、AI 围棋程序、无人车。它的目标是通过做动作，最大化自己能拿到的"好处"。
环境（Environment）：智能体生存的"世界"，可以是棋盘、道路、机器人的运动空间。环境会根据智能体的动作，给出反馈并改变自己的状态。

2. 智能体与环境的交互流程

它们的交互是一个循环往复的过程，就像打游戏时的"操作-反馈"循环：

智能体感知环境的当前状态（State, S）：比如围棋智能体看到当前棋盘的棋子分布，无人车看到前方有没有红绿灯。
智能体根据状态，做出一个动作（Action, A）：比如围棋智能体决定在"星位"落子，无人车决定"减速刹车"。
环境接收动作后，会发生两件事：
- 转移到新状态（S'）：比如棋盘上多了一颗棋子，无人车从"高速行驶"变成"低速刹车"。
- 给智能体一个奖励（Reward, R） ：这个奖励是标量数值（可以是正、负、零），用来评价动作的好坏。比如围棋赢了奖励 +100，输了奖励 -100；无人车安全通过路口奖励 +10，撞到行人奖励 -1000。
智能体拿到新状态和奖励，继续做下一次决策......循环往复，直到任务结束（比如围棋下完、无人车到达目的地）。

3. 智能体的三大核心能力

想让智能体学会决策，它必须具备三个"技能"，这也是衡量智能体"聪明程度"的关键：

能力	通俗解释	生活例子
感知	看懂环境的"当前情况"	你看导航知道自己现在在哪个路口
决策	根据当前情况选动作	看到红灯，你决定踩刹车
奖励感知	知道自己的动作好不好	踩刹车没闯红灯，得到"安全"的正向反馈

这里还要提一个关键概念：策略（Policy, π） 。策略就是智能体的"决策手册"，定义了"在什么状态下该做什么动作"，写成数学公式就是：
π ( A ∣ S ) = P ( A t = A ∣ S t = S ) \pi(A|S) = P(A_t = A | S_t = S) π(A∣S)=P(At=A∣St=S)

这个公式的意思是：在状态 S 下，智能体选择动作 A 的概率。比如在"棋盘星位有空位"的状态下，围棋 AI 有 80% 的概率选择落子（动作 A）。

不同智能体的核心区别，就是策略不一样------高手 AI 的策略能做出"长期最优"的选择，菜鸟 AI 只会"捡眼前小便宜"。

三、强化学习的环境：随机世界

Q：环境为什么不能是"一成不变"的？

A： 真实世界是动态的、随机的。比如你开车时，下一秒会不会有行人横穿马路是不确定的；机器人走路时，地面的摩擦力可能随时变化。

在数学上，这种"会变的环境"用 随机过程 来刻画。而强化学习的环境，是一个被智能体动作影响的随机过程------环境下一个状态，不仅和当前状态有关，还和智能体刚做的动作有关。

用公式表示环境的状态转移概率 ：
P ( S ′ ∣ S , A ) = P ( S t + 1 = S ′ ∣ S t = S , A t = A ) P(S'|S,A) = P(S_{t+1}=S' | S_t=S, A_t=A) P(S′∣S,A)=P(St+1=S′∣St=S,At=A)

这个公式的意思是：在当前状态 S 下，智能体做了动作 A 后，环境转移到新状态 S' 的概率。

举个例子：机器人在"平坦地面"（S）做"向前走一步"（A）的动作，有 90% 的概率转移到"前进 1 米"的新状态（S'），还有 10% 的概率因为地面打滑，停在原地（另一个 S'）。

正因为环境是随机的，所以智能体做决策时，不能只看眼前的奖励，还要考虑未来的不确定性------这也是 RL 的难点之一。

四、强化学习的目标不是单次奖励最高，而是长期总奖励期望最大

玩游戏时，你会为了"捡一个金币"而冲进敌人的包围圈吗？大概率不会------因为捡金币的小奖励，抵不上被打死的大损失。

强化学习的智能体，目标和你一样：最大化整个交互过程的累积奖励期望。

这里要明确三个概念：

即时奖励（R）：每一步动作得到的反馈，比如捡金币 +1。
回报（Return, G） ：从当前步到任务结束的所有奖励总和，公式为：
G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1} Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1
其中 γ \gamma γ 是折扣因子 （ 0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0≤γ≤1），用来表示"未来奖励的重要程度"： γ \gamma γ 越接近 1，说明智能体越看重长远利益；越接近 0，越看重眼前利益。
价值（Value, V） ：回报的数学期望。因为环境是随机的，同样的策略下，每次交互的回报可能不一样，所以我们关注"平均回报"，公式为：
V π ( S ) = E π [ G t ∣ S t = S ] V^\pi(S) = \mathbb{E}_\pi[G_t | S_t = S] Vπ(S)=Eπ[Gt∣St=S]
这个公式的意思是：在策略 π 下，智能体处于状态 S 时，未来能拿到的平均总回报。

强化学习的终极目标，就是找到一个最优策略 π ∗ \pi^* π∗ ，让智能体在任意状态下的价值都最大：
π ∗ = arg ⁡ max ⁡ π V π ( S ) \pi^* = \arg\max_\pi V^\pi(S) π∗=argπmaxVπ(S)

简单来说：最优策略 = 能带来最大长期利益的决策方式。

五、强化学习 vs 有监督学习：核心区别到底在哪？

看到这里，你可能会问："不都是机器学习吗？强化学习和我们常听的'图像识别'（有监督学习）有啥不一样？"

我们用一张表总结核心区别：

对比维度	有监督学习	强化学习
核心任务	预测：根据输入猜标签	决策：通过试错选最优动作
数据来源	固定的、人工标注的数据集	智能体与环境交互产生，数据分布会变
优化目标	最小化"预测误差"的期望	最大化"长期总奖励"的期望
关键特点	单轮任务，不影响未来	序贯决策，当前动作影响未来状态

这里要强调一个 RL 的核心难点：数据分布是动态变化的。

在有监督学习中，训练数据是固定的------比如你用 10 万张猫的照片训练，数据分布不会变。但在 RL 中，智能体的策略变了，和环境交互产生的数据就会变。

这个"数据分布随策略变化"的特性，用 RL 里的概念叫 占用度量（Occupancy Measure）------它衡量"在策略 π 下，智能体遇到某个状态-动作对的概率"。

两个策略的占用度量相同，就说明它们的决策行为完全一样；策略变了，占用度量也会跟着变。这也是 RL 比有监督学习难的关键原因。

六、复盘一下

RL 是做什么的？ 解决序贯决策问题，让机器通过与环境交互试错，学会做最优选择。
核心角色是什么？ 智能体（做决策）和环境（给反馈），二者循环交互。
智能体的目标是什么？ 不是单次奖励最高，而是长期总奖励的期望最大。
和有监督学习的核心区别？ RL 是"通过改变策略调整数据分布"来优化目标，有监督学习是"在固定数据分布上优化模型"。