【无标题】

强化学习(Reinforcement Learning)核心概念与术语大全

基于 Lilian Weng 的经典博客《A (Long) Peek into Reinforcement Learning》整理,并结合经典强化学习理论进行系统归纳。

原文:

https://lilianweng.github.io/posts/2018-02-19-rl-overview/


1. 什么是强化学习(Reinforcement Learning)

强化学习(Reinforcement Learning,RL)是一种:

智能体(Agent)通过与环境(Environment)不断交互试错,

学习如何最大化长期累计奖励(Long-term Reward)的机器学习方法。

强化学习的核心不是:

  • 分类
  • 拟合标签

而是:

text 复制代码
Sequential Decision Making(序列决策)

即:

text 复制代码
当前动作会影响未来状态和未来奖励

2. 强化学习与监督学习的区别

对比项 监督学习 强化学习
数据来源 固定数据集 与环境交互
标签 明确标签 reward signal
优化目标 当前误差 长期累计收益
核心问题 function fitting decision making
数据是否独立 IID 强相关时序数据

3. 强化学习的核心组成

一个标准 RL 系统通常包括:

概念 含义
Agent 智能体
Environment 环境
State (s) 当前状态
Action (a) 动作
Reward ® 奖励
Policy (π) 策略
Value Function 价值函数
Model 环境模型

4. Agent 与 Environment

强化学习本质上是:

text 复制代码
Agent <----> Environment

循环交互过程:

text 复制代码
状态 s_t
   ↓
Agent 选择 action a_t
   ↓
Environment 返回:
    reward r_t
    next state s_{t+1}

形成:

text 复制代码
s1 → a1 → r1 → s2 → a2 → r2 ...

5. State(状态)

State 用于描述:

text 复制代码
当前环境信息

例如:

场景 State
自动驾驶 BEV特征、速度、地图
游戏 当前游戏画面
机器人 关节角度
LLM RLHF 当前 token context

6. Action(动作)

Action 是:

text 复制代码
Agent 对环境采取的行为

例如:

场景 Action
自动驾驶 转向、油门
游戏 上下左右
机器人 电机控制
LLM 下一个 token

6.1 离散动作(Discrete Action)

例如:

text 复制代码
左 / 右 / 跳跃

典型算法:

  • DQN
  • Atari RL

6.2 连续动作(Continuous Action)

例如:

text 复制代码
steering angle ∈ [-1,1]

典型算法:

  • PPO
  • DDPG
  • SAC

连续动作更难优化。


7. Reward(奖励)

Reward 表示:

text 复制代码
环境对行为的反馈

记作:

text 复制代码
r_t

例如:

行为 Reward
游戏得分 +1
撞车 -100
到达目标 +10

8. Return(累计回报)

强化学习优化的不是单步 reward:

而是:

text 复制代码
未来长期累计收益

定义:

text 复制代码
G_t = r_{t+1} + γr_{t+2} + γ²r_{t+3} + ...

其中:

text 复制代码
γ ∈ [0,1]

称为:

text 复制代码
Discount Factor(折扣因子)

9. Discount Factor(折扣因子)

折扣因子:

text 复制代码
γ

用于衡量:

text 复制代码
未来奖励的重要程度

γ → 1

更关注长期收益。

例如:

  • 自动驾驶
  • 长任务机器人

γ → 0

更关注短期收益。

例如:

  • 即时反应控制

10. Policy(策略)

Policy 表示:

text 复制代码
状态 → 动作

记作:

text 复制代码
π(a|s)

含义:

text 复制代码
在状态 s 下采取动作 a 的概率

11. Deterministic Policy vs Stochastic Policy


11.1 确定性策略

text 复制代码
π(s)=a

同样状态总是输出同样动作。

例如:

  • DDPG

11.2 随机策略

text 复制代码
π(a|s)

输出概率分布:

text 复制代码
[左:0.2, 右:0.8]

现代 Policy Gradient 基本都使用 stochastic policy。


12. Value Function(价值函数)

Value Function 用于:

text 复制代码
评估"状态有多好"

12.1 State Value Function

定义:

text 复制代码
Vπ(s)

含义:

text 复制代码
从状态 s 出发未来能获得多少 reward

12.2 Action Value Function(Q Function)

定义:

text 复制代码
Qπ(s,a)

含义:

text 复制代码
在状态 s 下执行动作 a 的长期收益

13. Advantage Function(优势函数)

定义:

text 复制代码
A(s,a)=Q(s,a)-V(s)

表示:

text 复制代码
某动作比平均动作好多少

PPO/A2C 的核心。


14. Episode(轨迹)

完整交互序列:

text 复制代码
s1,a1,r1,s2,a2,r2...

称为:

  • Episode
  • Trajectory
  • Rollout

直到:

text 复制代码
Terminal State

结束。


15. Exploration vs Exploitation

RL 的核心矛盾:


Exploitation(利用)

选择当前最优动作。


Exploration(探索)

尝试未知动作。


常见探索方法

方法 说明
ε-greedy 随机探索
entropy bonus 增加随机性
intrinsic reward 内在奖励
curiosity 好奇心探索

16. Markov Decision Process(MDP)

强化学习理论基础:

text 复制代码
MDP

16.1 马尔可夫性质

未来只依赖当前状态:

text 复制代码
P(S_{t+1}|S_t)

不依赖完整历史。


16.2 MDP 五元组

text 复制代码
(S, A, P, R, γ)

符号 含义
S 状态空间
A 动作空间
P 状态转移
R reward
γ discount factor

17. Bellman Equation(贝尔曼方程)

强化学习最核心公式。

核心思想:

text 复制代码
当前价值 =
当前奖励 + 下一状态价值

Bellman Expectation Equation

用于:

text 复制代码
Policy Evaluation

Bellman Optimality Equation

用于:

text 复制代码
寻找最优策略

18. Dynamic Programming(动态规划)

适用于:

text 复制代码
环境模型已知

核心:

text 复制代码
Bellman Iteration

包括:

  • Policy Evaluation
  • Policy Improvement
  • Policy Iteration
  • Value Iteration

19. Monte Carlo(MC)

特点:

text 复制代码
完整 episode 后再更新

直接计算真实 return:

text 复制代码
G_t

优点

  • unbiased

缺点

  • variance 大
  • 训练慢

20. Temporal Difference(TD Learning)

TD:

text 复制代码
MC + Bootstrapping

特点:

text 复制代码
不等 episode 结束

直接使用:

text 复制代码
r + γV(s')

更新。


21. Bootstrapping

Bootstrapping:

text 复制代码
用自己的预测更新自己

例如:

text 复制代码
V(s) ← r + γV(s')

是:

  • TD
  • Q-learning
  • DQN

核心思想。


22. SARSA

经典:

text 复制代码
On-policy TD Learning

更新公式:

text 复制代码
Q(s,a) ← r + γQ(s',a')

特点:

text 复制代码
使用当前 policy 的动作

23. Q-Learning

经典:

text 复制代码
Off-policy RL

更新:

text 复制代码
Q(s,a) ← r + γ max Q(s',a')

特点:

text 复制代码
直接朝最优策略学习

24. On-policy vs Off-policy


On-policy

使用当前策略采样数据训练。

例如:

  • PPO
  • A2C
  • SARSA

特点:

  • 稳定
  • sample efficiency 较低

Off-policy

可复用历史数据。

例如:

  • DQN
  • DDPG
  • SAC

特点:

  • sample efficient
  • 更复杂

25. Replay Buffer(经验回放)

保存历史 transition:

text 复制代码
(s,a,r,s')

随机采样训练。

作用:

  • 打破数据相关性
  • 提高 sample efficiency

DQN 核心创新之一。


26. Deep Q-Network(DQN)

DQN:

text 复制代码
Q-learning + Deep Neural Network

核心创新:

技术 作用
Replay Buffer 去相关
Target Network 稳定训练

DQN 开启了 Deep RL 时代。


27. Policy Gradient(策略梯度)

直接优化:

text 复制代码
Policy

目标:

text 复制代码
max J(θ)

通过:

text 复制代码
∇θ J(θ)

更新参数。


28. Actor-Critic

结合:

模块 作用
Actor 输出动作
Critic 评估价值

现代 RL 主流架构。


代表算法

  • A2C
  • PPO
  • DDPG
  • SAC

29. PPO(Proximal Policy Optimization)

目前最经典 RL 算法之一。

核心思想:

text 复制代码
限制 policy update 不要变化太大

避免:

text 复制代码
训练崩溃

PPO 优点

  • 稳定
  • 易实现
  • 效果强

广泛用于:

  • RLHF
  • LLM Alignment
  • Robotics

30. Credit Assignment Problem

强化学习核心难题:

text 复制代码
长期 reward 到底由哪个动作导致?

尤其:

text 复制代码
Delayed Reward

情况下非常困难。


31. Sparse Reward(稀疏奖励)

只有极少时刻获得奖励。

例如:

text 复制代码
只有通关时 +1

导致:

  • exploration 困难
  • 学习慢

32. Curriculum Learning(课程学习)

类似:

text 复制代码
人类教学过程

从简单任务逐渐增加难度。

用于:

  • robotics
  • multi-task RL
  • sparse reward

33. Self-Play(自博弈)

自己和自己对战。

典型:

  • AlphaGo Zero
  • OpenAI Five

特点:

text 复制代码
无需人工标签

34. Evolution Strategy(进化策略)

不依赖 Bellman。

通过:

text 复制代码
参数随机扰动 + 生存竞争

优化策略。


优点

  • 易并行
  • 不依赖梯度

缺点

  • sample inefficient

35. Model-Based RL vs Model-Free RL


35.1 Model-Free RL

不学习环境模型。

直接学习:

  • policy
  • value

例如:

  • DQN
  • PPO
  • SAC

35.2 Model-Based RL

学习环境动力学:

text 复制代码
P(s'|s,a)

可进行:

text 复制代码
Planning

例如:

  • MuZero
  • Dreamer
  • World Model

36. Deep Reinforcement Learning(Deep RL)

Deep RL:

text 复制代码
RL + Deep Neural Network

使 RL 能处理:

  • 图像
  • 视频
  • 大规模状态空间
  • 连续控制

37. RL 与 LLM 的关系

现代 LLM 后训练本质属于 RL:

  • RLHF
  • RLAIF
  • DPO
  • GRPO

对应关系

RL LLM
Policy LLM
Action token
Reward RM
Trajectory token sequence
PPO policy optimization

38. 强化学习算法发展主线

text 复制代码
Dynamic Programming
    ↓
Monte Carlo
    ↓
Temporal Difference
    ↓
SARSA / Q-learning
    ↓
DQN
    ↓
Policy Gradient
    ↓
Actor-Critic
    ↓
PPO / SAC
    ↓
RLHF / World Model / VLA

39. 强化学习最核心的思想


1. Trial and Error(试错学习)

通过不断交互学习。


2. Long-term Optimization(长期优化)

关注长期收益。


3. Exploration(探索)

主动探索未知世界。


4. Credit Assignment(归因)

长期奖励如何归因到历史动作。


40. 强化学习一句话总结

text 复制代码
强化学习 =
智能体通过与环境不断交互试错,
学习一个能最大化长期收益的决策策略。

41. 推荐学习路线


第一阶段:基础理论

推荐:

  • Sutton & Barto
  • David Silver RL Course
  • Lilian Weng RL Blog

第二阶段:经典算法

重点:

  • Q-learning
  • DQN
  • PPO
  • SAC

第三阶段:现代 RL

重点:

  • World Model
  • RLHF
  • Offline RL
  • Multi-agent RL
  • Robotics RL

References

  1. Lilian Weng --- RL Overview

    https://lilianweng.github.io/posts/2018-02-19-rl-overview/

  2. Sutton & Barto --- Reinforcement Learning: An Introduction

  3. David Silver RL Course

  4. OpenAI Spinning Up

相关推荐
非社会人士21 天前
RL 系统 Infra 笔记:区分不同模型
强化学习·rlhf·rl·ppo·verl·infra
Robot_Nav24 天前
RL-Driven MPPI:基于离线策略加速在线控制律计算的模型预测路径积分控制
rl·learning_based·mppi
大唐荣华1 个月前
从π到F:分阶段强化学习如何让机器人学会精密装配
强化学习·rl·vla
bryant_meng1 个月前
【VLA】Vision Language Action
人工智能·深度学习·rl·vla·世界模型·vlm
山顶夕景1 个月前
【MLLM】GraphWalker:Deepresearch用于图像生成
大模型·强化学习·图像生成·rl·agentic
传说故事2 个月前
【论文阅读】RL Token: Bootstrapping Online RL with Vision-Language-Action Models
论文阅读·人工智能·具身智能·rl
亚里随笔2 个月前
OpenClaw-RL:让AI Agent在对话中自主学习进化
人工智能·学习·llm·rl·agentic
山顶夕景3 个月前
【LLM】ROLL团队的Agentic RL训练坑点
大模型·llm·强化学习·rl·agentic rl
香芋Yu3 个月前
【强化学习教程——01_强化学习基石】第06章_Q-Learning与SARSA
人工智能·算法·强化学习·rl·sarsa·q-learning