【无标题】 - 技术栈

强化学习（Reinforcement Learning）核心概念与术语大全

基于 Lilian Weng 的经典博客《A (Long) Peek into Reinforcement Learning》整理，并结合经典强化学习理论进行系统归纳。

原文：

https://lilianweng.github.io/posts/2018-02-19-rl-overview/

1. 什么是强化学习（Reinforcement Learning）

强化学习（Reinforcement Learning，RL）是一种：

智能体（Agent）通过与环境（Environment）不断交互试错，

学习如何最大化长期累计奖励（Long-term Reward）的机器学习方法。

强化学习的核心不是：

分类
拟合标签

而是：

text 复制代码

Sequential Decision Making（序列决策）

即：

text 复制代码

当前动作会影响未来状态和未来奖励

2. 强化学习与监督学习的区别

对比项	监督学习	强化学习
数据来源	固定数据集	与环境交互
标签	明确标签	reward signal
优化目标	当前误差	长期累计收益
核心问题	function fitting	decision making
数据是否独立	IID	强相关时序数据

3. 强化学习的核心组成

一个标准 RL 系统通常包括：

概念	含义
Agent	智能体
Environment	环境
State (s)	当前状态
Action (a)	动作
Reward ®	奖励
Policy (π)	策略
Value Function	价值函数
Model	环境模型

4. Agent 与 Environment

强化学习本质上是：

text 复制代码

Agent <----> Environment

循环交互过程：

text 复制代码

状态 s_t
   ↓
Agent 选择 action a_t
   ↓
Environment 返回:
    reward r_t
    next state s_{t+1}

形成：

text 复制代码

s1 → a1 → r1 → s2 → a2 → r2 ...

5. State（状态）

State 用于描述：

text 复制代码

当前环境信息

例如：

场景	State
自动驾驶	BEV特征、速度、地图
游戏	当前游戏画面
机器人	关节角度
LLM RLHF	当前 token context

6. Action（动作）

Action 是：

text 复制代码

Agent 对环境采取的行为

例如：

场景	Action
自动驾驶	转向、油门
游戏	上下左右
机器人	电机控制
LLM	下一个 token

6.1 离散动作（Discrete Action）

例如：

text 复制代码

左 / 右 / 跳跃

典型算法：

DQN
Atari RL

6.2 连续动作（Continuous Action）

例如：

text 复制代码

steering angle ∈ [-1,1]

典型算法：

PPO
DDPG
SAC

连续动作更难优化。

7. Reward（奖励）

Reward 表示：

text 复制代码

环境对行为的反馈

记作：

text 复制代码

r_t

例如：

行为	Reward
游戏得分	+1
撞车	-100
到达目标	+10

8. Return（累计回报）

强化学习优化的不是单步 reward：

而是：

text 复制代码

未来长期累计收益

定义：

text 复制代码

G_t = r_{t+1} + γr_{t+2} + γ²r_{t+3} + ...

其中：

text 复制代码

γ ∈ [0,1]

称为：

text 复制代码

Discount Factor（折扣因子）

9. Discount Factor（折扣因子）

折扣因子：

text 复制代码

γ

用于衡量：

text 复制代码

未来奖励的重要程度

γ → 1

更关注长期收益。

例如：

自动驾驶
长任务机器人

γ → 0

更关注短期收益。

例如：

即时反应控制

10. Policy（策略）

Policy 表示：

text 复制代码

状态 → 动作

记作：

text 复制代码

π(a|s)

含义：

text 复制代码

在状态 s 下采取动作 a 的概率

11. Deterministic Policy vs Stochastic Policy

11.1 确定性策略

text 复制代码

π(s)=a

同样状态总是输出同样动作。

例如：

DDPG

11.2 随机策略

text 复制代码

π(a|s)

输出概率分布：

text 复制代码

[左:0.2, 右:0.8]

现代 Policy Gradient 基本都使用 stochastic policy。

12. Value Function（价值函数）

Value Function 用于：

text 复制代码

评估"状态有多好"

12.1 State Value Function

定义：

text 复制代码

Vπ(s)

含义：

text 复制代码

从状态 s 出发未来能获得多少 reward

12.2 Action Value Function（Q Function）

定义：

text 复制代码

Qπ(s,a)

含义：

text 复制代码

在状态 s 下执行动作 a 的长期收益

13. Advantage Function（优势函数）

定义：

text 复制代码

A(s,a)=Q(s,a)-V(s)

表示：

text 复制代码

某动作比平均动作好多少

PPO/A2C 的核心。

14. Episode（轨迹）

完整交互序列：

text 复制代码

s1,a1,r1,s2,a2,r2...

称为：

Episode
Trajectory
Rollout

直到：

text 复制代码

Terminal State

结束。

15. Exploration vs Exploitation

RL 的核心矛盾：

Exploitation（利用）

选择当前最优动作。

Exploration（探索）

尝试未知动作。

常见探索方法

方法	说明
ε-greedy	随机探索
entropy bonus	增加随机性
intrinsic reward	内在奖励
curiosity	好奇心探索

16. Markov Decision Process（MDP）

强化学习理论基础：

text 复制代码

MDP

16.1 马尔可夫性质

未来只依赖当前状态：

text 复制代码

P(S_{t+1}|S_t)

不依赖完整历史。

16.2 MDP 五元组

text 复制代码

(S, A, P, R, γ)

符号	含义
S	状态空间
A	动作空间
P	状态转移
R	reward
γ	discount factor

17. Bellman Equation（贝尔曼方程）

强化学习最核心公式。

核心思想：

text 复制代码

当前价值 =
当前奖励 + 下一状态价值

Bellman Expectation Equation

用于：

text 复制代码

Policy Evaluation

Bellman Optimality Equation

用于：

text 复制代码

寻找最优策略

18. Dynamic Programming（动态规划）

适用于：

text 复制代码

环境模型已知

核心：

text 复制代码

Bellman Iteration

包括：

Policy Evaluation
Policy Improvement
Policy Iteration
Value Iteration

19. Monte Carlo（MC）

特点：

text 复制代码

完整 episode 后再更新

直接计算真实 return：

text 复制代码

G_t

优点

unbiased

缺点

variance 大
训练慢

20. Temporal Difference（TD Learning）

TD：

text 复制代码

MC + Bootstrapping

特点：

text 复制代码

不等 episode 结束

直接使用：

text 复制代码

r + γV(s')

更新。

21. Bootstrapping

Bootstrapping：

text 复制代码

用自己的预测更新自己

例如：

text 复制代码

V(s) ← r + γV(s')

是：

TD
Q-learning
DQN

核心思想。

22. SARSA

经典：

text 复制代码

On-policy TD Learning

更新公式：

text 复制代码

Q(s,a) ← r + γQ(s',a')

特点：

text 复制代码

使用当前 policy 的动作

23. Q-Learning

经典：

text 复制代码

Off-policy RL

更新：

text 复制代码

Q(s,a) ← r + γ max Q(s',a')

特点：

text 复制代码

直接朝最优策略学习

24. On-policy vs Off-policy

On-policy

使用当前策略采样数据训练。

例如：

PPO
A2C
SARSA

特点：

稳定
sample efficiency 较低

Off-policy

可复用历史数据。

例如：

DQN
DDPG
SAC

特点：

sample efficient
更复杂

25. Replay Buffer（经验回放）

保存历史 transition：

text 复制代码

(s,a,r,s')

随机采样训练。

作用：

打破数据相关性
提高 sample efficiency

DQN 核心创新之一。

26. Deep Q-Network（DQN）

DQN：

text 复制代码

Q-learning + Deep Neural Network

核心创新：

技术	作用
Replay Buffer	去相关
Target Network	稳定训练

DQN 开启了 Deep RL 时代。

27. Policy Gradient（策略梯度）

直接优化：

text 复制代码

Policy

目标：

text 复制代码

max J(θ)

通过：

text 复制代码

∇θ J(θ)

更新参数。

28. Actor-Critic

结合：

模块	作用
Actor	输出动作
Critic	评估价值

现代 RL 主流架构。

代表算法

A2C
PPO
DDPG
SAC

29. PPO（Proximal Policy Optimization）

目前最经典 RL 算法之一。

核心思想：

text 复制代码

限制 policy update 不要变化太大

避免：

text 复制代码

训练崩溃

PPO 优点

稳定
易实现
效果强

广泛用于：

RLHF
LLM Alignment
Robotics

30. Credit Assignment Problem

强化学习核心难题：

text 复制代码

长期 reward 到底由哪个动作导致？

尤其：

text 复制代码

Delayed Reward

情况下非常困难。

31. Sparse Reward（稀疏奖励）

只有极少时刻获得奖励。

例如：

text 复制代码

只有通关时 +1

导致：

exploration 困难
学习慢

32. Curriculum Learning（课程学习）

类似：

text 复制代码

人类教学过程

从简单任务逐渐增加难度。

用于：

robotics
multi-task RL
sparse reward

33. Self-Play（自博弈）

自己和自己对战。

典型：

AlphaGo Zero
OpenAI Five

特点：

text 复制代码

无需人工标签

34. Evolution Strategy（进化策略）

不依赖 Bellman。

通过：

text 复制代码

参数随机扰动 + 生存竞争

优化策略。

优点

易并行
不依赖梯度

缺点

sample inefficient

35. Model-Based RL vs Model-Free RL

35.1 Model-Free RL

不学习环境模型。

直接学习：

policy
value

例如：

35.2 Model-Based RL

学习环境动力学：

text 复制代码

P(s'|s,a)

可进行：

text 复制代码

Planning

例如：

MuZero
Dreamer
World Model

36. Deep Reinforcement Learning（Deep RL）

Deep RL：

text 复制代码

RL + Deep Neural Network

使 RL 能处理：

图像
视频
大规模状态空间
连续控制

37. RL 与 LLM 的关系

现代 LLM 后训练本质属于 RL：

RLHF
RLAIF
DPO
GRPO

对应关系

RL	LLM
Policy	LLM
Action	token
Reward	RM
Trajectory	token sequence
PPO	policy optimization

38. 强化学习算法发展主线

text 复制代码

Dynamic Programming
    ↓
Monte Carlo
    ↓
Temporal Difference
    ↓
SARSA / Q-learning
    ↓
DQN
    ↓
Policy Gradient
    ↓
Actor-Critic
    ↓
PPO / SAC
    ↓
RLHF / World Model / VLA

39. 强化学习最核心的思想

1. Trial and Error（试错学习）

通过不断交互学习。

2. Long-term Optimization（长期优化）

关注长期收益。

3. Exploration（探索）

主动探索未知世界。

4. Credit Assignment（归因）

长期奖励如何归因到历史动作。

40. 强化学习一句话总结

text 复制代码

强化学习 =
智能体通过与环境不断交互试错，
学习一个能最大化长期收益的决策策略。

41. 推荐学习路线

第一阶段：基础理论

第二阶段：经典算法

重点：

Q-learning
DQN
PPO
SAC

第三阶段：现代 RL

重点：

World Model
RLHF
Offline RL
Multi-agent RL
Robotics RL

References

Lilian Weng --- RL Overview

https://lilianweng.github.io/posts/2018-02-19-rl-overview/
Sutton & Barto --- Reinforcement Learning: An Introduction
David Silver RL Course
OpenAI Spinning Up