从零学习 RL :初识强化学习

文章目录

已经接触 RL 有一段时间了,做过一些 Demo 和 paper,今天想重新复盘一下 RL 的全部内容,主要用于以后回顾起来更方便些。


一、RL 只是 ML 的 "强化版"

我们都会有: "当初要是xxx就好了""早知道xxx" 这样的后悔。

人生就是由一连串的 选择(决策) 组成的,每一次选择都会带来不同的"后果",而我们会根据这些后果调整下一次的选择------这其实就是最朴素的"强化学习思维"。

在ML里,有两类核心任务:

  • 预测任务:比如用历史数据预测明天的天气、用照片识别这是猫还是狗。核心是"根据已知数据猜答案",猜完就结束,不会影响未来。
  • 决策任务 :比如让机器人自己学会走路、让 AI 下围棋赢人类、让无人车安全导航。核心是 **"通过一次次试错,学会做能带来长期好处的选择" **,也就是 序贯决策 ------强化学习的核心。

强化学习 = 机器通过与环境交互试错,学会做最优决策的过程


二、智能体 vs 环境

强化学习里,只有两个核心角色:智能体(Agent)环境(Environment)

它们的关系,就像"玩家"和"游戏世界"的关系。

1. 核心角色定义

  • 智能体(Agent) :做决策的"主角",可以是机器人、AI 围棋程序、无人车。它的目标是通过做动作,最大化自己能拿到的"好处"
  • 环境(Environment):智能体生存的"世界",可以是棋盘、道路、机器人的运动空间。环境会根据智能体的动作,给出反馈并改变自己的状态。

2. 智能体与环境的交互流程

它们的交互是一个循环往复的过程,就像打游戏时的"操作-反馈"循环:

  1. 智能体感知环境的当前状态(State, S):比如围棋智能体看到当前棋盘的棋子分布,无人车看到前方有没有红绿灯。
  2. 智能体根据状态,做出一个动作(Action, A):比如围棋智能体决定在"星位"落子,无人车决定"减速刹车"。
  3. 环境接收动作后,会发生两件事:
    • 转移到新状态(S'):比如棋盘上多了一颗棋子,无人车从"高速行驶"变成"低速刹车"。
    • 给智能体一个奖励(Reward, R) :这个奖励是标量数值(可以是正、负、零),用来评价动作的好坏。比如围棋赢了奖励 +100,输了奖励 -100;无人车安全通过路口奖励 +10,撞到行人奖励 -1000。
  4. 智能体拿到新状态和奖励,继续做下一次决策......循环往复,直到任务结束(比如围棋下完、无人车到达目的地)。

3. 智能体的三大核心能力

想让智能体学会决策,它必须具备三个"技能",这也是衡量智能体"聪明程度"的关键:

能力 通俗解释 生活例子
感知 看懂环境的"当前情况" 你看导航知道自己现在在哪个路口
决策 根据当前情况选动作 看到红灯,你决定踩刹车
奖励感知 知道自己的动作好不好 踩刹车没闯红灯,得到"安全"的正向反馈

这里还要提一个关键概念:策略(Policy, π) 。策略就是智能体的"决策手册",定义了"在什么状态下该做什么动作",写成数学公式就是:
π ( A ∣ S ) = P ( A t = A ∣ S t = S ) \pi(A|S) = P(A_t = A | S_t = S) π(A∣S)=P(At=A∣St=S)

这个公式的意思是:在状态 S 下,智能体选择动作 A 的概率。比如在"棋盘星位有空位"的状态下,围棋 AI 有 80% 的概率选择落子(动作 A)。

不同智能体的核心区别,就是策略不一样------高手 AI 的策略能做出"长期最优"的选择,菜鸟 AI 只会"捡眼前小便宜"。


三、强化学习的环境:随机世界

Q: 环境为什么不能是"一成不变"的?

A: 真实世界是动态的、随机的。比如你开车时,下一秒会不会有行人横穿马路是不确定的;机器人走路时,地面的摩擦力可能随时变化。

在数学上,这种"会变的环境"用 随机过程 来刻画。而强化学习的环境,是一个被智能体动作影响的随机过程------环境下一个状态,不仅和当前状态有关,还和智能体刚做的动作有关。

用公式表示环境的状态转移概率
P ( S ′ ∣ S , A ) = P ( S t + 1 = S ′ ∣ S t = S , A t = A ) P(S'|S,A) = P(S_{t+1}=S' | S_t=S, A_t=A) P(S′∣S,A)=P(St+1=S′∣St=S,At=A)

这个公式的意思是:在当前状态 S 下,智能体做了动作 A 后,环境转移到新状态 S' 的概率

举个例子:机器人在"平坦地面"(S)做"向前走一步"(A)的动作,有 90% 的概率转移到"前进 1 米"的新状态(S'),还有 10% 的概率因为地面打滑,停在原地(另一个 S')。

正因为环境是随机的,所以智能体做决策时,不能只看眼前的奖励,还要考虑未来的不确定性------这也是 RL 的难点之一。


四、强化学习的目标不是单次奖励最高,而是长期总奖励期望最大

玩游戏时,你会为了"捡一个金币"而冲进敌人的包围圈吗?大概率不会------因为捡金币的小奖励,抵不上被打死的大损失。

强化学习的智能体,目标和你一样:最大化整个交互过程的累积奖励期望

这里要明确三个概念:

  1. 即时奖励(R):每一步动作得到的反馈,比如捡金币 +1。
  2. 回报(Return, G) :从当前步到任务结束的所有奖励总和,公式为:
    G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... = \sum_{k=0}^\infty \gamma^k R_{t+k+1} Gt=Rt+1+γRt+2+γ2Rt+3+...=k=0∑∞γkRt+k+1
    其中 γ \gamma γ 是折扣因子 ( 0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0≤γ≤1),用来表示"未来奖励的重要程度": γ \gamma γ 越接近 1,说明智能体越看重长远利益;越接近 0,越看重眼前利益。
  3. 价值(Value, V) :回报的数学期望。因为环境是随机的,同样的策略下,每次交互的回报可能不一样,所以我们关注"平均回报",公式为:
    V π ( S ) = E π [ G t ∣ S t = S ] V^\pi(S) = \mathbb{E}_\pi[G_t | S_t = S] Vπ(S)=Eπ[Gt∣St=S]
    这个公式的意思是:在策略 π 下,智能体处于状态 S 时,未来能拿到的平均总回报

强化学习的终极目标,就是找到一个最优策略 π ∗ \pi^* π∗ ,让智能体在任意状态下的价值都最大:
π ∗ = arg ⁡ max ⁡ π V π ( S ) \pi^* = \arg\max_\pi V^\pi(S) π∗=argπmaxVπ(S)

简单来说:最优策略 = 能带来最大长期利益的决策方式


五、强化学习 vs 有监督学习:核心区别到底在哪?

看到这里,你可能会问:"不都是机器学习吗?强化学习和我们常听的'图像识别'(有监督学习)有啥不一样?"

我们用一张表总结核心区别:

对比维度 有监督学习 强化学习
核心任务 预测:根据输入猜标签 决策:通过试错选最优动作
数据来源 固定的、人工标注的数据集 智能体与环境交互产生,数据分布会变
优化目标 最小化"预测误差"的期望 最大化"长期总奖励"的期望
关键特点 单轮任务,不影响未来 序贯决策,当前动作影响未来状态

这里要强调一个 RL 的核心难点:数据分布是动态变化的

在有监督学习中,训练数据是固定的------比如你用 10 万张猫的照片训练,数据分布不会变。但在 RL 中,智能体的策略变了,和环境交互产生的数据就会变

这个"数据分布随策略变化"的特性,用 RL 里的概念叫 占用度量(Occupancy Measure)------它衡量"在策略 π 下,智能体遇到某个状态-动作对的概率"。

两个策略的占用度量相同,就说明它们的决策行为完全一样;策略变了,占用度量也会跟着变。这也是 RL 比有监督学习难的关键原因。

六、复盘一下

  1. RL 是做什么的? 解决序贯决策问题,让机器通过与环境交互试错,学会做最优选择。
  2. 核心角色是什么? 智能体(做决策)和环境(给反馈),二者循环交互。
  3. 智能体的目标是什么? 不是单次奖励最高,而是长期总奖励的期望最大
  4. 和有监督学习的核心区别? RL 是"通过改变策略调整数据分布"来优化目标,有监督学习是"在固定数据分布上优化模型"。
相关推荐
m0_603888712 小时前
More Images, More Problems A Controlled Analysis of VLM Failure Modes
人工智能·算法·机器学习·ai·论文速览
ICscholar2 小时前
ROC曲线解读
人工智能·机器学习
丝斯20112 小时前
AI学习笔记整理(44)——大规模预训练模型数据处理管道Pipeline
人工智能·笔记·学习
向量引擎小橙2 小时前
Sora开启“世界模拟器”新纪元:谁将定义AI的物理世界?
人工智能
OpenCSG2 小时前
AgenticOps x CSGHub:企业智能体走向规模化生产的工程底座
大数据·人工智能
weixin_437988122 小时前
范式智能获评年度科技创新新锐公司
人工智能·科技
易营宝2 小时前
高效的跨境电商广告优化系统:易营宝广告投放实操指南
大数据·开发语言·人工智能·php
HyperAI超神经2 小时前
实现高选择性底物设计,MIT联手哈佛用生成式AI发现全新蛋白酶切割模式
人工智能·深度学习·机器学习·开源·ai编程
液态不合群2 小时前
2026破除技术空转:从范式重构到产业深耕的革新路径
人工智能·低代码·重构