强化学习(Reinforcement Learning)核心概念与术语大全
基于 Lilian Weng 的经典博客《A (Long) Peek into Reinforcement Learning》整理,并结合经典强化学习理论进行系统归纳。
原文:
1. 什么是强化学习(Reinforcement Learning)
强化学习(Reinforcement Learning,RL)是一种:
智能体(Agent)通过与环境(Environment)不断交互试错,
学习如何最大化长期累计奖励(Long-term Reward)的机器学习方法。
强化学习的核心不是:
- 分类
- 拟合标签
而是:
text
Sequential Decision Making(序列决策)
即:
text
当前动作会影响未来状态和未来奖励
2. 强化学习与监督学习的区别
| 对比项 | 监督学习 | 强化学习 |
|---|---|---|
| 数据来源 | 固定数据集 | 与环境交互 |
| 标签 | 明确标签 | reward signal |
| 优化目标 | 当前误差 | 长期累计收益 |
| 核心问题 | function fitting | decision making |
| 数据是否独立 | IID | 强相关时序数据 |
3. 强化学习的核心组成
一个标准 RL 系统通常包括:
| 概念 | 含义 |
|---|---|
| Agent | 智能体 |
| Environment | 环境 |
| State (s) | 当前状态 |
| Action (a) | 动作 |
| Reward ® | 奖励 |
| Policy (π) | 策略 |
| Value Function | 价值函数 |
| Model | 环境模型 |
4. Agent 与 Environment
强化学习本质上是:
text
Agent <----> Environment
循环交互过程:
text
状态 s_t
↓
Agent 选择 action a_t
↓
Environment 返回:
reward r_t
next state s_{t+1}
形成:
text
s1 → a1 → r1 → s2 → a2 → r2 ...
5. State(状态)
State 用于描述:
text
当前环境信息
例如:
| 场景 | State |
|---|---|
| 自动驾驶 | BEV特征、速度、地图 |
| 游戏 | 当前游戏画面 |
| 机器人 | 关节角度 |
| LLM RLHF | 当前 token context |
6. Action(动作)
Action 是:
text
Agent 对环境采取的行为
例如:
| 场景 | Action |
|---|---|
| 自动驾驶 | 转向、油门 |
| 游戏 | 上下左右 |
| 机器人 | 电机控制 |
| LLM | 下一个 token |
6.1 离散动作(Discrete Action)
例如:
text
左 / 右 / 跳跃
典型算法:
- DQN
- Atari RL
6.2 连续动作(Continuous Action)
例如:
text
steering angle ∈ [-1,1]
典型算法:
- PPO
- DDPG
- SAC
连续动作更难优化。
7. Reward(奖励)
Reward 表示:
text
环境对行为的反馈
记作:
text
r_t
例如:
| 行为 | Reward |
|---|---|
| 游戏得分 | +1 |
| 撞车 | -100 |
| 到达目标 | +10 |
8. Return(累计回报)
强化学习优化的不是单步 reward:
而是:
text
未来长期累计收益
定义:
text
G_t = r_{t+1} + γr_{t+2} + γ²r_{t+3} + ...
其中:
text
γ ∈ [0,1]
称为:
text
Discount Factor(折扣因子)
9. Discount Factor(折扣因子)
折扣因子:
text
γ
用于衡量:
text
未来奖励的重要程度
γ → 1
更关注长期收益。
例如:
- 自动驾驶
- 长任务机器人
γ → 0
更关注短期收益。
例如:
- 即时反应控制
10. Policy(策略)
Policy 表示:
text
状态 → 动作
记作:
text
π(a|s)
含义:
text
在状态 s 下采取动作 a 的概率
11. Deterministic Policy vs Stochastic Policy
11.1 确定性策略
text
π(s)=a
同样状态总是输出同样动作。
例如:
- DDPG
11.2 随机策略
text
π(a|s)
输出概率分布:
text
[左:0.2, 右:0.8]
现代 Policy Gradient 基本都使用 stochastic policy。
12. Value Function(价值函数)
Value Function 用于:
text
评估"状态有多好"
12.1 State Value Function
定义:
text
Vπ(s)
含义:
text
从状态 s 出发未来能获得多少 reward
12.2 Action Value Function(Q Function)
定义:
text
Qπ(s,a)
含义:
text
在状态 s 下执行动作 a 的长期收益
13. Advantage Function(优势函数)
定义:
text
A(s,a)=Q(s,a)-V(s)
表示:
text
某动作比平均动作好多少
PPO/A2C 的核心。
14. Episode(轨迹)
完整交互序列:
text
s1,a1,r1,s2,a2,r2...
称为:
- Episode
- Trajectory
- Rollout
直到:
text
Terminal State
结束。
15. Exploration vs Exploitation
RL 的核心矛盾:
Exploitation(利用)
选择当前最优动作。
Exploration(探索)
尝试未知动作。
常见探索方法
| 方法 | 说明 |
|---|---|
| ε-greedy | 随机探索 |
| entropy bonus | 增加随机性 |
| intrinsic reward | 内在奖励 |
| curiosity | 好奇心探索 |
16. Markov Decision Process(MDP)
强化学习理论基础:
text
MDP
16.1 马尔可夫性质
未来只依赖当前状态:
text
P(S_{t+1}|S_t)
不依赖完整历史。
16.2 MDP 五元组
text
(S, A, P, R, γ)
| 符号 | 含义 |
|---|---|
| S | 状态空间 |
| A | 动作空间 |
| P | 状态转移 |
| R | reward |
| γ | discount factor |
17. Bellman Equation(贝尔曼方程)
强化学习最核心公式。
核心思想:
text
当前价值 =
当前奖励 + 下一状态价值
Bellman Expectation Equation
用于:
text
Policy Evaluation
Bellman Optimality Equation
用于:
text
寻找最优策略
18. Dynamic Programming(动态规划)
适用于:
text
环境模型已知
核心:
text
Bellman Iteration
包括:
- Policy Evaluation
- Policy Improvement
- Policy Iteration
- Value Iteration
19. Monte Carlo(MC)
特点:
text
完整 episode 后再更新
直接计算真实 return:
text
G_t
优点
- unbiased
缺点
- variance 大
- 训练慢
20. Temporal Difference(TD Learning)
TD:
text
MC + Bootstrapping
特点:
text
不等 episode 结束
直接使用:
text
r + γV(s')
更新。
21. Bootstrapping
Bootstrapping:
text
用自己的预测更新自己
例如:
text
V(s) ← r + γV(s')
是:
- TD
- Q-learning
- DQN
核心思想。
22. SARSA
经典:
text
On-policy TD Learning
更新公式:
text
Q(s,a) ← r + γQ(s',a')
特点:
text
使用当前 policy 的动作
23. Q-Learning
经典:
text
Off-policy RL
更新:
text
Q(s,a) ← r + γ max Q(s',a')
特点:
text
直接朝最优策略学习
24. On-policy vs Off-policy
On-policy
使用当前策略采样数据训练。
例如:
- PPO
- A2C
- SARSA
特点:
- 稳定
- sample efficiency 较低
Off-policy
可复用历史数据。
例如:
- DQN
- DDPG
- SAC
特点:
- sample efficient
- 更复杂
25. Replay Buffer(经验回放)
保存历史 transition:
text
(s,a,r,s')
随机采样训练。
作用:
- 打破数据相关性
- 提高 sample efficiency
DQN 核心创新之一。
26. Deep Q-Network(DQN)
DQN:
text
Q-learning + Deep Neural Network
核心创新:
| 技术 | 作用 |
|---|---|
| Replay Buffer | 去相关 |
| Target Network | 稳定训练 |
DQN 开启了 Deep RL 时代。
27. Policy Gradient(策略梯度)
直接优化:
text
Policy
目标:
text
max J(θ)
通过:
text
∇θ J(θ)
更新参数。
28. Actor-Critic
结合:
| 模块 | 作用 |
|---|---|
| Actor | 输出动作 |
| Critic | 评估价值 |
现代 RL 主流架构。
代表算法
- A2C
- PPO
- DDPG
- SAC
29. PPO(Proximal Policy Optimization)
目前最经典 RL 算法之一。
核心思想:
text
限制 policy update 不要变化太大
避免:
text
训练崩溃
PPO 优点
- 稳定
- 易实现
- 效果强
广泛用于:
- RLHF
- LLM Alignment
- Robotics
30. Credit Assignment Problem
强化学习核心难题:
text
长期 reward 到底由哪个动作导致?
尤其:
text
Delayed Reward
情况下非常困难。
31. Sparse Reward(稀疏奖励)
只有极少时刻获得奖励。
例如:
text
只有通关时 +1
导致:
- exploration 困难
- 学习慢
32. Curriculum Learning(课程学习)
类似:
text
人类教学过程
从简单任务逐渐增加难度。
用于:
- robotics
- multi-task RL
- sparse reward
33. Self-Play(自博弈)
自己和自己对战。
典型:
- AlphaGo Zero
- OpenAI Five
特点:
text
无需人工标签
34. Evolution Strategy(进化策略)
不依赖 Bellman。
通过:
text
参数随机扰动 + 生存竞争
优化策略。
优点
- 易并行
- 不依赖梯度
缺点
- sample inefficient
35. Model-Based RL vs Model-Free RL
35.1 Model-Free RL
不学习环境模型。
直接学习:
- policy
- value
例如:
- DQN
- PPO
- SAC
35.2 Model-Based RL
学习环境动力学:
text
P(s'|s,a)
可进行:
text
Planning
例如:
- MuZero
- Dreamer
- World Model
36. Deep Reinforcement Learning(Deep RL)
Deep RL:
text
RL + Deep Neural Network
使 RL 能处理:
- 图像
- 视频
- 大规模状态空间
- 连续控制
37. RL 与 LLM 的关系
现代 LLM 后训练本质属于 RL:
- RLHF
- RLAIF
- DPO
- GRPO
对应关系
| RL | LLM |
|---|---|
| Policy | LLM |
| Action | token |
| Reward | RM |
| Trajectory | token sequence |
| PPO | policy optimization |
38. 强化学习算法发展主线
text
Dynamic Programming
↓
Monte Carlo
↓
Temporal Difference
↓
SARSA / Q-learning
↓
DQN
↓
Policy Gradient
↓
Actor-Critic
↓
PPO / SAC
↓
RLHF / World Model / VLA
39. 强化学习最核心的思想
1. Trial and Error(试错学习)
通过不断交互学习。
2. Long-term Optimization(长期优化)
关注长期收益。
3. Exploration(探索)
主动探索未知世界。
4. Credit Assignment(归因)
长期奖励如何归因到历史动作。
40. 强化学习一句话总结
text
强化学习 =
智能体通过与环境不断交互试错,
学习一个能最大化长期收益的决策策略。
41. 推荐学习路线
第一阶段:基础理论
推荐:
- Sutton & Barto
- David Silver RL Course
- Lilian Weng RL Blog
第二阶段:经典算法
重点:
- Q-learning
- DQN
- PPO
- SAC
第三阶段:现代 RL
重点:
- World Model
- RLHF
- Offline RL
- Multi-agent RL
- Robotics RL
References
-
Lilian Weng --- RL Overview
-
Sutton & Barto --- Reinforcement Learning: An Introduction
-
David Silver RL Course
-
OpenAI Spinning Up