强化学习入门笔记

🍋🍋AI学习🍋🍋🔥系列专栏：

👑哲学语录: 用力所能及，改变世界。

💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

先说一个有意思的事：强化学习的核心思想，其实每个人小时候都经历过。

想象一下你教小狗握手------它做对了就给它一块零食，做错了就没有。几次之后，小狗就知道"抬手 + 零食"这个关联了。这就是强化学习最朴素的形式：Agent（小狗）通过与环境（你）的交互，学习最大化累积奖励（零食）的行为策略。

这个框架的适用范围比大多数人想的要广得多：

玩游戏：用分数作为奖励
训练语言模型：用人类偏好作为奖励
机器人控制：用完成任务作为奖励
股票交易：用收益作为奖励

本质上，只要一个问题可以描述为"一个智能体在环境中做决策，目标是最大化长期回报"，RL 就有用武之地。

一、RL 的基本框架

核心要素

一个标准的 RL 系统由五部分组成：

Agent（智能体）：做决策的主体
Environment（环境）：Agent 生存和互动的世界
Action（动作）：Agent 可以采取的行为
State（状态）：环境在某个时刻的情况
Reward（奖励）：环境给 Agent 的反馈信号

RL 的目标是学到一个 策略（Policy）------给定当前状态，应该采取什么动作才能最大化长期累积奖励。

马尔可夫决策过程（MDP）

RL 问题的数学形式是 MDP，它有一个关键假设叫马尔可夫性：未来的状态只取决于当前状态和当前动作，与过去的历史无关。

用公式表示就是一个循环：

复制代码

状态 S → 动作 A → 新状态 S' + 奖励 R → 再选动作 A' → ...

我刚开始学的时候觉得这个假设太强了，现实世界哪有这么理想。但后来发现，只要把"状态"定义得足够丰富（包含所有必要的历史信息），马尔可夫性就近似成立。

探索 vs 利用（Exploration vs Exploitation）

这是 RL 最核心也最经典的矛盾：

利用：选已知最好的动作，确保收益
探索：尝试新动作，可能会发现更好的策略

最简单的平衡方法是 ε-greedy------以 ε 的概率随机探索，以 1-ε 的概率选择当前最优。训练初期 ε 大一点（多探索），后期 ε 逐渐减小（多利用）。

二、RL 的核心算法分类

RL 算法可以从不同角度分类。我的理解里最有区分度的分法是按"Agent 是否建模环境"。

1. 无模型 vs 有模型

无模型（Model-Free）RL Agent 不尝试理解环境如何运作，直接从交互经验中学习策略。好处是通用性强，不需要事先知道环境动力学；坏处是样本效率低。

有模型（Model-Based）RL Agent 先学一个环境模型，然后"在脑子里模拟"各种可能的后果再做决策。样本效率高，但模型可能有偏差。

实践中，无模型 RL 在 LLM 领域用得更多，而有模型 RL 在机器人控制和游戏 AI 中更常见。

2. 基于价值 vs 基于策略

基于价值（Value-Based） 核心思想：学一个 Q 函数 Q(s, a)，代表"在状态 s 下执行动作 a，未来能拿到的总奖励"。决策时选 Q 值最高的动作。

代表算法：DQN（Deep Q-Network）------用神经网络近似 Q 函数。2013 年 DeepMind 用 DQN 在 Atari 游戏上超越人类水平，是深度 RL 的里程碑。

基于策略（Policy-Based） 直接学一个策略网络 π(a|s)，给定状态 s，输出动作 a 的概率分布。不需要 Q 函数。

代表算法：Policy Gradient------通过梯度上升优化策略参数。好处是可以处理连续动作空间（比如机器人关节角度），坏处是方差大、收敛慢。

Actor-Critic（演员-评论家） 结合了上面两者的优点：

Actor（演员）：策略网络，负责选动作
Critic（评论家）：价值网络，负责评价动作好不好

Critic 给 Actor 提供低方差的梯度信号，训练更稳定。这是当前最主流的范式，PPO、SAC、DDPG 都属于 Actor-Critic 家族。

3. PPO：最流行的 RL 算法

PPO（Proximal Policy Optimization） 是 2017 年 OpenAI 提出的算法，到今天仍然是 LLM 时代 RLHF 的基础算法。

核心思想很简单：每次更新策略的时候不要改太多。

Policy Gradient 的一个问题是，一次更新步长太大可能导致策略崩溃（掉下悬崖爬不回来）。PPO 通过一个剪切（clip）机制，限制新策略和旧策略的差异在可控范围内。

伪代码级的理解：

复制代码

1. 用当前策略和环境互动，收集一批数据
2. 计算每个动作的"优势"——比平均水平好多少
3. 更新策略：让好的动作概率增大，坏的动作概率减小
4. 但如果新旧策略差异太大，就截断（clip）更新量
5. 重复

PPO 的优势在于：实现简单、超参数鲁棒、训练稳定。这也是为什么它成为 RLHF 的事实标准。

三、RL + LLM：RLHF 与 GRPO

RLHF：让大模型说人话

RLHF（Reinforcement Learning from Human Feedback）是 ChatGPT 成功的核心技术之一。它解决的问题是：语言模型在预训练阶段学到的只是"文字接龙"，而不是"有用的对话"。

RLHF 的流程分为三步：

Step 1：SFT（监督微调） 用高质量的人工标注数据对预训练模型做指令微调。这步让模型学会"回答问题"的基本格式。

Step 2：训练奖励模型 收集大量人类偏好数据（回答 A vs 回答 B，人类选哪个更好），训练一个**奖励模型（Reward Model）**来预测人类偏好。

Step 3：PPO 优化 用 PPO 算法微调 SFT 模型。奖励信号来自 Step 2 的奖励模型，目标是最大化奖励。

这步的约束条件很重要------KL 散度惩罚项防止模型为了追求奖励而偏离原始模型太远（否则模型可能学会"说好听的但胡扯"）。

GRPO：DeepSeek 的改进

GRPO（Group Relative Policy Optimization）是 DeepSeek 在训练 DeepSeek-R1 时提出的 PPO 改进版，2025 年引起了广泛关注。

传统 PPO 需要一个**价值模型（Critic）**来估计基线。价值模型通常和策略模型一样大（70B 参数），所以内存开销翻倍。

GRPO 的改进：不用价值模型了，而是用一组采样的平均值来估计基线。

具体做法：

对同一个 prompt，用当前策略生成一组回答（比如 8 个）
计算这组回答的平均奖励作为基线
每个回答的"优势" = 它的奖励 - 组平均奖励
用这个优势来更新策略

好处：

省掉了一半的模型参数（不需要价值网络）
训练更稳定（组内比较比绝对评分更可靠）
特别适合推理场景（数学题有标准答案，奖励信号明确）

GRPO 的成功也说明了一个趋势：RL 算法的创新正在从通用场景转向 LLM 特化场景。

推理能力从哪里来

DeepSeek-R1 展示了一个重要发现：RL 训练可以激发出模型的推理能力。

有意思的是，R1 在训练初期并没有"教"模型怎么推理，只是给了奖励信号（答案对了加分，过程有逻辑加分），模型自己就"涌现"出了 Chain of Thought、自我纠错、回溯等推理行为。

这其实很符合 RL 的精神------你不告诉 Agent 怎么做，只告诉它什么好什么不好，它自己会找到最优策略。在数学推理场景下，"答案正确"就是一个非常清晰的奖励信号。

四、RL 的其他重要应用

游戏 AI

RL 在游戏领域取得过最耀眼的成就：

AlphaGo / AlphaZero （DeepMind）：用 RL + MCTS 在围棋上击败世界冠军。AlphaZero 的厉害之处在于零人类知识------只告诉它围棋规则，从零开始自对弈学习
OpenAI Five：在 Dota 2 上击败职业战队
AlphaStar：在星际争霸 2 上达到宗师级别

这些成果的共性是：游戏提供了完美的模拟器和明确的奖励信号------赢了 +1，输了 -1。这是 RL 最理想的应用场景。

机器人控制

RL 在真实机器人上的应用比游戏难得多：

样本效率低：真实机器人不能像游戏里一样跑百万次试错
安全约束：训练初期随机探索可能导致机器人损坏
Sim-to-Real 差距：在仿真里学到的策略到真实世界不一定好用

2026 年的进展包括：仿真器的精度越来越高，让 sim-to-real 迁移变得更可靠；以及 offline RL 的成熟------可以用历史数据训练策略，不需要在线交互。

自动驾驶

RL 在自动驾驶中的应用主要集中在决策规划层------在复杂的交通场景中做出安全的驾驶决策。

典型的做法是分层架构：

上层：用 RL 做路线规划（什么时候变道、要不要超车）
下层：用传统控制方法执行具体操作

挑战在于奖励函数设计------安全、效率、舒适性之间的权衡很难用一个标量奖励完全表达。

五、个人理解与思考

1. RL 是"数据效率最低但天花板最高"的学习范式

和监督学习相比，RL 的样本效率低得令人发指------AlphaGo 需要自我对弈数百万盘才能超越人类。但它有一个监督学习做不到的优势：RL 可以发现超越人类知识的行为策略。AlphaGo 的"第 37 手"、OpenAI Five 的"绕塔走位"，都是人类从未想到过的策略。

2. 奖励工程（Reward Engineering）是一门玄学

RL 项目最大的坑往往不是算法选错了，而是奖励函数设计得不好。奖励太稀疏（只有结束时才有信号），Agent 学不到东西；奖励太密集，Agent 可能学会"钻空子"------找到一种奖励高但不符预期的方式完成任务。好的奖励设计需要领域知识和大量实验。

3. LLM 给 RL 带来了新生命

2024-2026 年，RL 社区最大的增量来自 LLM 领域。RLHF、GRPO、DPO、Reinforcement Learning from AI Feedback 等方法让 RL 重新成为热点。反过来，LLM 也给 RL 带来了新工具------比如用 LLM 写奖励函数、用 LLM 做环境建模。

4. 对入坑者的一点建议

如果想学 RL，我的建议是从 PPO 入手------它是最广泛使用的算法，实现相对简单，社区资源丰富。先在一个简单的环境（比如 Gym 的 CartPole）上跑通，再逐步理解背后的数学。

工具方面推荐：

Stable-Baselines3：Python 的 RL 算法库，开箱即用
Gymnasium（原 OpenAI Gym）：标准 RL 环境接口
Hugging Face TRL：专门做 LLM RL 训练的库，支持 PPO、GRPO、DPO