🍋🍋AI学习🍋🍋🔥系列专栏:
👑哲学语录: 用力所能及,改变世界。
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞
先说一个有意思的事:强化学习的核心思想,其实每个人小时候都经历过。
想象一下你教小狗握手------它做对了就给它一块零食,做错了就没有。几次之后,小狗就知道"抬手 + 零食"这个关联了。这就是强化学习最朴素的形式:Agent(小狗)通过与环境(你)的交互,学习最大化累积奖励(零食)的行为策略。
这个框架的适用范围比大多数人想的要广得多:
-
玩游戏:用分数作为奖励
-
训练语言模型:用人类偏好作为奖励
-
机器人控制:用完成任务作为奖励
-
股票交易:用收益作为奖励
本质上,只要一个问题可以描述为"一个智能体在环境中做决策,目标是最大化长期回报",RL 就有用武之地。
一、RL 的基本框架
核心要素
一个标准的 RL 系统由五部分组成:
-
Agent(智能体):做决策的主体
-
Environment(环境):Agent 生存和互动的世界
-
Action(动作):Agent 可以采取的行为
-
State(状态):环境在某个时刻的情况
-
Reward(奖励):环境给 Agent 的反馈信号
RL 的目标是学到一个 策略(Policy)------给定当前状态,应该采取什么动作才能最大化长期累积奖励。
马尔可夫决策过程(MDP)
RL 问题的数学形式是 MDP,它有一个关键假设叫马尔可夫性:未来的状态只取决于当前状态和当前动作,与过去的历史无关。
用公式表示就是一个循环:
状态 S → 动作 A → 新状态 S' + 奖励 R → 再选动作 A' → ...
我刚开始学的时候觉得这个假设太强了,现实世界哪有这么理想。但后来发现,只要把"状态"定义得足够丰富(包含所有必要的历史信息),马尔可夫性就近似成立。
探索 vs 利用(Exploration vs Exploitation)
这是 RL 最核心也最经典的矛盾:
-
利用:选已知最好的动作,确保收益
-
探索:尝试新动作,可能会发现更好的策略
最简单的平衡方法是 ε-greedy------以 ε 的概率随机探索,以 1-ε 的概率选择当前最优。训练初期 ε 大一点(多探索),后期 ε 逐渐减小(多利用)。
二、RL 的核心算法分类
RL 算法可以从不同角度分类。我的理解里最有区分度的分法是按"Agent 是否建模环境"。
1. 无模型 vs 有模型
无模型(Model-Free)RL Agent 不尝试理解环境如何运作,直接从交互经验中学习策略。好处是通用性强,不需要事先知道环境动力学;坏处是样本效率低。
有模型(Model-Based)RL Agent 先学一个环境模型,然后"在脑子里模拟"各种可能的后果再做决策。样本效率高,但模型可能有偏差。
实践中,无模型 RL 在 LLM 领域用得更多,而有模型 RL 在机器人控制和游戏 AI 中更常见。
2. 基于价值 vs 基于策略
基于价值(Value-Based) 核心思想:学一个 Q 函数 Q(s, a),代表"在状态 s 下执行动作 a,未来能拿到的总奖励"。决策时选 Q 值最高的动作。
代表算法:DQN(Deep Q-Network)------用神经网络近似 Q 函数。2013 年 DeepMind 用 DQN 在 Atari 游戏上超越人类水平,是深度 RL 的里程碑。
基于策略(Policy-Based) 直接学一个策略网络 π(a|s),给定状态 s,输出动作 a 的概率分布。不需要 Q 函数。
代表算法:Policy Gradient------通过梯度上升优化策略参数。好处是可以处理连续动作空间(比如机器人关节角度),坏处是方差大、收敛慢。
Actor-Critic(演员-评论家) 结合了上面两者的优点:
-
Actor(演员):策略网络,负责选动作
-
Critic(评论家):价值网络,负责评价动作好不好
Critic 给 Actor 提供低方差的梯度信号,训练更稳定。这是当前最主流的范式,PPO、SAC、DDPG 都属于 Actor-Critic 家族。
3. PPO:最流行的 RL 算法
PPO(Proximal Policy Optimization) 是 2017 年 OpenAI 提出的算法,到今天仍然是 LLM 时代 RLHF 的基础算法。
核心思想很简单:每次更新策略的时候不要改太多。
Policy Gradient 的一个问题是,一次更新步长太大可能导致策略崩溃(掉下悬崖爬不回来)。PPO 通过一个剪切(clip)机制,限制新策略和旧策略的差异在可控范围内。
伪代码级的理解:
1. 用当前策略和环境互动,收集一批数据
2. 计算每个动作的"优势"——比平均水平好多少
3. 更新策略:让好的动作概率增大,坏的动作概率减小
4. 但如果新旧策略差异太大,就截断(clip)更新量
5. 重复
PPO 的优势在于:实现简单、超参数鲁棒、训练稳定。这也是为什么它成为 RLHF 的事实标准。
三、RL + LLM:RLHF 与 GRPO
RLHF:让大模型说人话
RLHF(Reinforcement Learning from Human Feedback)是 ChatGPT 成功的核心技术之一。它解决的问题是:语言模型在预训练阶段学到的只是"文字接龙",而不是"有用的对话"。
RLHF 的流程分为三步:
Step 1:SFT(监督微调) 用高质量的人工标注数据对预训练模型做指令微调。这步让模型学会"回答问题"的基本格式。
Step 2:训练奖励模型 收集大量人类偏好数据(回答 A vs 回答 B,人类选哪个更好),训练一个**奖励模型(Reward Model)**来预测人类偏好。
Step 3:PPO 优化 用 PPO 算法微调 SFT 模型。奖励信号来自 Step 2 的奖励模型,目标是最大化奖励。
这步的约束条件很重要------KL 散度惩罚项防止模型为了追求奖励而偏离原始模型太远(否则模型可能学会"说好听的但胡扯")。
GRPO:DeepSeek 的改进
GRPO(Group Relative Policy Optimization)是 DeepSeek 在训练 DeepSeek-R1 时提出的 PPO 改进版,2025 年引起了广泛关注。
传统 PPO 需要一个**价值模型(Critic)**来估计基线。价值模型通常和策略模型一样大(70B 参数),所以内存开销翻倍。
GRPO 的改进:不用价值模型了,而是用一组采样的平均值来估计基线。
具体做法:
-
对同一个 prompt,用当前策略生成一组回答(比如 8 个)
-
计算这组回答的平均奖励作为基线
-
每个回答的"优势" = 它的奖励 - 组平均奖励
-
用这个优势来更新策略
好处:
-
省掉了一半的模型参数(不需要价值网络)
-
训练更稳定(组内比较比绝对评分更可靠)
-
特别适合推理场景(数学题有标准答案,奖励信号明确)
GRPO 的成功也说明了一个趋势:RL 算法的创新正在从通用场景转向 LLM 特化场景。
推理能力从哪里来
DeepSeek-R1 展示了一个重要发现:RL 训练可以激发出模型的推理能力。
有意思的是,R1 在训练初期并没有"教"模型怎么推理,只是给了奖励信号(答案对了加分,过程有逻辑加分),模型自己就"涌现"出了 Chain of Thought、自我纠错、回溯等推理行为。
这其实很符合 RL 的精神------你不告诉 Agent 怎么做,只告诉它什么好什么不好,它自己会找到最优策略。在数学推理场景下,"答案正确"就是一个非常清晰的奖励信号。
四、RL 的其他重要应用
游戏 AI
RL 在游戏领域取得过最耀眼的成就:
-
AlphaGo / AlphaZero (DeepMind):用 RL + MCTS 在围棋上击败世界冠军。AlphaZero 的厉害之处在于零人类知识------只告诉它围棋规则,从零开始自对弈学习
-
OpenAI Five:在 Dota 2 上击败职业战队
-
AlphaStar:在星际争霸 2 上达到宗师级别
这些成果的共性是:游戏提供了完美的模拟器和明确的奖励信号------赢了 +1,输了 -1。这是 RL 最理想的应用场景。
机器人控制
RL 在真实机器人上的应用比游戏难得多:
-
样本效率低:真实机器人不能像游戏里一样跑百万次试错
-
安全约束:训练初期随机探索可能导致机器人损坏
-
Sim-to-Real 差距:在仿真里学到的策略到真实世界不一定好用
2026 年的进展包括:仿真器的精度越来越高,让 sim-to-real 迁移变得更可靠;以及 offline RL 的成熟------可以用历史数据训练策略,不需要在线交互。
自动驾驶
RL 在自动驾驶中的应用主要集中在决策规划层------在复杂的交通场景中做出安全的驾驶决策。
典型的做法是分层架构:
-
上层:用 RL 做路线规划(什么时候变道、要不要超车)
-
下层:用传统控制方法执行具体操作
挑战在于奖励函数设计------安全、效率、舒适性之间的权衡很难用一个标量奖励完全表达。
五、个人理解与思考
1. RL 是"数据效率最低但天花板最高"的学习范式
和监督学习相比,RL 的样本效率低得令人发指------AlphaGo 需要自我对弈数百万盘才能超越人类。但它有一个监督学习做不到的优势:RL 可以发现超越人类知识的行为策略。AlphaGo 的"第 37 手"、OpenAI Five 的"绕塔走位",都是人类从未想到过的策略。
2. 奖励工程(Reward Engineering)是一门玄学
RL 项目最大的坑往往不是算法选错了,而是奖励函数设计得不好。奖励太稀疏(只有结束时才有信号),Agent 学不到东西;奖励太密集,Agent 可能学会"钻空子"------找到一种奖励高但不符预期的方式完成任务。好的奖励设计需要领域知识和大量实验。
3. LLM 给 RL 带来了新生命
2024-2026 年,RL 社区最大的增量来自 LLM 领域。RLHF、GRPO、DPO、Reinforcement Learning from AI Feedback 等方法让 RL 重新成为热点。反过来,LLM 也给 RL 带来了新工具------比如用 LLM 写奖励函数、用 LLM 做环境建模。
4. 对入坑者的一点建议
如果想学 RL,我的建议是从 PPO 入手------它是最广泛使用的算法,实现相对简单,社区资源丰富。先在一个简单的环境(比如 Gym 的 CartPole)上跑通,再逐步理解背后的数学。
工具方面推荐:
-
Stable-Baselines3:Python 的 RL 算法库,开箱即用
-
Gymnasium(原 OpenAI Gym):标准 RL 环境接口
-
Hugging Face TRL:专门做 LLM RL 训练的库,支持 PPO、GRPO、DPO