强化学习入门笔记

🍋🍋AI学习🍋🍋🔥系列专栏:

👑哲学语录: 用力所能及,改变世界。

💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


先说一个有意思的事:强化学习的核心思想,其实每个人小时候都经历过

想象一下你教小狗握手------它做对了就给它一块零食,做错了就没有。几次之后,小狗就知道"抬手 + 零食"这个关联了。这就是强化学习最朴素的形式:Agent(小狗)通过与环境(你)的交互,学习最大化累积奖励(零食)的行为策略

这个框架的适用范围比大多数人想的要广得多:

  • 玩游戏:用分数作为奖励

  • 训练语言模型:用人类偏好作为奖励

  • 机器人控制:用完成任务作为奖励

  • 股票交易:用收益作为奖励

本质上,只要一个问题可以描述为"一个智能体在环境中做决策,目标是最大化长期回报",RL 就有用武之地。


一、RL 的基本框架

核心要素

一个标准的 RL 系统由五部分组成:

  1. Agent(智能体):做决策的主体

  2. Environment(环境):Agent 生存和互动的世界

  3. Action(动作):Agent 可以采取的行为

  4. State(状态):环境在某个时刻的情况

  5. Reward(奖励):环境给 Agent 的反馈信号

RL 的目标是学到一个 策略(Policy)------给定当前状态,应该采取什么动作才能最大化长期累积奖励。

马尔可夫决策过程(MDP)

RL 问题的数学形式是 MDP,它有一个关键假设叫马尔可夫性:未来的状态只取决于当前状态和当前动作,与过去的历史无关。

用公式表示就是一个循环:

复制代码
状态 S → 动作 A → 新状态 S' + 奖励 R → 再选动作 A' → ...

我刚开始学的时候觉得这个假设太强了,现实世界哪有这么理想。但后来发现,只要把"状态"定义得足够丰富(包含所有必要的历史信息),马尔可夫性就近似成立。

探索 vs 利用(Exploration vs Exploitation)

这是 RL 最核心也最经典的矛盾:

  • 利用:选已知最好的动作,确保收益

  • 探索:尝试新动作,可能会发现更好的策略

最简单的平衡方法是 ε-greedy------以 ε 的概率随机探索,以 1-ε 的概率选择当前最优。训练初期 ε 大一点(多探索),后期 ε 逐渐减小(多利用)。


二、RL 的核心算法分类

RL 算法可以从不同角度分类。我的理解里最有区分度的分法是按"Agent 是否建模环境"。

1. 无模型 vs 有模型

无模型(Model-Free)RL Agent 不尝试理解环境如何运作,直接从交互经验中学习策略。好处是通用性强,不需要事先知道环境动力学;坏处是样本效率低。

有模型(Model-Based)RL Agent 先学一个环境模型,然后"在脑子里模拟"各种可能的后果再做决策。样本效率高,但模型可能有偏差。

实践中,无模型 RL 在 LLM 领域用得更多,而有模型 RL 在机器人控制和游戏 AI 中更常见。

2. 基于价值 vs 基于策略

基于价值(Value-Based) 核心思想:学一个 Q 函数 Q(s, a),代表"在状态 s 下执行动作 a,未来能拿到的总奖励"。决策时选 Q 值最高的动作。

代表算法:DQN(Deep Q-Network)------用神经网络近似 Q 函数。2013 年 DeepMind 用 DQN 在 Atari 游戏上超越人类水平,是深度 RL 的里程碑。

基于策略(Policy-Based) 直接学一个策略网络 π(a|s),给定状态 s,输出动作 a 的概率分布。不需要 Q 函数。

代表算法:Policy Gradient------通过梯度上升优化策略参数。好处是可以处理连续动作空间(比如机器人关节角度),坏处是方差大、收敛慢。

Actor-Critic(演员-评论家) 结合了上面两者的优点:

  • Actor(演员):策略网络,负责选动作

  • Critic(评论家):价值网络,负责评价动作好不好

Critic 给 Actor 提供低方差的梯度信号,训练更稳定。这是当前最主流的范式,PPO、SAC、DDPG 都属于 Actor-Critic 家族。

3. PPO:最流行的 RL 算法

PPO(Proximal Policy Optimization) 是 2017 年 OpenAI 提出的算法,到今天仍然是 LLM 时代 RLHF 的基础算法。

核心思想很简单:每次更新策略的时候不要改太多

Policy Gradient 的一个问题是,一次更新步长太大可能导致策略崩溃(掉下悬崖爬不回来)。PPO 通过一个剪切(clip)机制,限制新策略和旧策略的差异在可控范围内。

伪代码级的理解:

复制代码
1. 用当前策略和环境互动,收集一批数据
2. 计算每个动作的"优势"——比平均水平好多少
3. 更新策略:让好的动作概率增大,坏的动作概率减小
4. 但如果新旧策略差异太大,就截断(clip)更新量
5. 重复

PPO 的优势在于:实现简单、超参数鲁棒、训练稳定。这也是为什么它成为 RLHF 的事实标准。


三、RL + LLM:RLHF 与 GRPO

RLHF:让大模型说人话

RLHF(Reinforcement Learning from Human Feedback)是 ChatGPT 成功的核心技术之一。它解决的问题是:语言模型在预训练阶段学到的只是"文字接龙",而不是"有用的对话"

RLHF 的流程分为三步:

Step 1:SFT(监督微调) 用高质量的人工标注数据对预训练模型做指令微调。这步让模型学会"回答问题"的基本格式。

Step 2:训练奖励模型 收集大量人类偏好数据(回答 A vs 回答 B,人类选哪个更好),训练一个**奖励模型(Reward Model)**来预测人类偏好。

Step 3:PPO 优化 用 PPO 算法微调 SFT 模型。奖励信号来自 Step 2 的奖励模型,目标是最大化奖励。

这步的约束条件很重要------KL 散度惩罚项防止模型为了追求奖励而偏离原始模型太远(否则模型可能学会"说好听的但胡扯")。

GRPO:DeepSeek 的改进

GRPO(Group Relative Policy Optimization)是 DeepSeek 在训练 DeepSeek-R1 时提出的 PPO 改进版,2025 年引起了广泛关注。

传统 PPO 需要一个**价值模型(Critic)**来估计基线。价值模型通常和策略模型一样大(70B 参数),所以内存开销翻倍。

GRPO 的改进:不用价值模型了,而是用一组采样的平均值来估计基线。

具体做法:

  1. 对同一个 prompt,用当前策略生成一组回答(比如 8 个)

  2. 计算这组回答的平均奖励作为基线

  3. 每个回答的"优势" = 它的奖励 - 组平均奖励

  4. 用这个优势来更新策略

好处:

  • 省掉了一半的模型参数(不需要价值网络)

  • 训练更稳定(组内比较比绝对评分更可靠)

  • 特别适合推理场景(数学题有标准答案,奖励信号明确)

GRPO 的成功也说明了一个趋势:RL 算法的创新正在从通用场景转向 LLM 特化场景

推理能力从哪里来

DeepSeek-R1 展示了一个重要发现:RL 训练可以激发出模型的推理能力

有意思的是,R1 在训练初期并没有"教"模型怎么推理,只是给了奖励信号(答案对了加分,过程有逻辑加分),模型自己就"涌现"出了 Chain of Thought、自我纠错、回溯等推理行为。

这其实很符合 RL 的精神------你不告诉 Agent 怎么做,只告诉它什么好什么不好,它自己会找到最优策略。在数学推理场景下,"答案正确"就是一个非常清晰的奖励信号。


四、RL 的其他重要应用

游戏 AI

RL 在游戏领域取得过最耀眼的成就:

  • AlphaGo / AlphaZero (DeepMind):用 RL + MCTS 在围棋上击败世界冠军。AlphaZero 的厉害之处在于零人类知识------只告诉它围棋规则,从零开始自对弈学习

  • OpenAI Five:在 Dota 2 上击败职业战队

  • AlphaStar:在星际争霸 2 上达到宗师级别

这些成果的共性是:游戏提供了完美的模拟器和明确的奖励信号------赢了 +1,输了 -1。这是 RL 最理想的应用场景。

机器人控制

RL 在真实机器人上的应用比游戏难得多:

  • 样本效率低:真实机器人不能像游戏里一样跑百万次试错

  • 安全约束:训练初期随机探索可能导致机器人损坏

  • Sim-to-Real 差距:在仿真里学到的策略到真实世界不一定好用

2026 年的进展包括:仿真器的精度越来越高,让 sim-to-real 迁移变得更可靠;以及 offline RL 的成熟------可以用历史数据训练策略,不需要在线交互。

自动驾驶

RL 在自动驾驶中的应用主要集中在决策规划层------在复杂的交通场景中做出安全的驾驶决策。

典型的做法是分层架构:

  • 上层:用 RL 做路线规划(什么时候变道、要不要超车)

  • 下层:用传统控制方法执行具体操作

挑战在于奖励函数设计------安全、效率、舒适性之间的权衡很难用一个标量奖励完全表达。


五、个人理解与思考

1. RL 是"数据效率最低但天花板最高"的学习范式

和监督学习相比,RL 的样本效率低得令人发指------AlphaGo 需要自我对弈数百万盘才能超越人类。但它有一个监督学习做不到的优势:RL 可以发现超越人类知识的行为策略。AlphaGo 的"第 37 手"、OpenAI Five 的"绕塔走位",都是人类从未想到过的策略。

2. 奖励工程(Reward Engineering)是一门玄学

RL 项目最大的坑往往不是算法选错了,而是奖励函数设计得不好。奖励太稀疏(只有结束时才有信号),Agent 学不到东西;奖励太密集,Agent 可能学会"钻空子"------找到一种奖励高但不符预期的方式完成任务。好的奖励设计需要领域知识和大量实验。

3. LLM 给 RL 带来了新生命

2024-2026 年,RL 社区最大的增量来自 LLM 领域。RLHF、GRPO、DPO、Reinforcement Learning from AI Feedback 等方法让 RL 重新成为热点。反过来,LLM 也给 RL 带来了新工具------比如用 LLM 写奖励函数、用 LLM 做环境建模。

4. 对入坑者的一点建议

如果想学 RL,我的建议是从 PPO 入手------它是最广泛使用的算法,实现相对简单,社区资源丰富。先在一个简单的环境(比如 Gym 的 CartPole)上跑通,再逐步理解背后的数学。

工具方面推荐:

  • Stable-Baselines3:Python 的 RL 算法库,开箱即用

  • Gymnasium(原 OpenAI Gym):标准 RL 环境接口

  • Hugging Face TRL:专门做 LLM RL 训练的库,支持 PPO、GRPO、DPO

相关推荐
轻刀快马1 小时前
AI 架构的文艺复兴:用操作系统“内存管理”重构 LLM 状态机 —— 深度解密 Claude Code
人工智能·架构
随身数智备忘录1 小时前
拆解安全生产法三大核心功能,安全生产法如何解决责任不清与事故追责难
大数据·人工智能·安全
子榆.1 小时前
CANN PyTorch适配器深度拆解:从.cuda()到.npu()到底发生了什么
人工智能·pytorch·python
renhongxia11 小时前
从GPT到开源大模型
人工智能·gpt·生成对抗网络·语言模型·自然语言处理·开源
生成论实验室1 小时前
WOLM在自动驾驶和机器人中究竟扮演什么角色?
人工智能·机器人·自动驾驶·创业创新·安全架构
码云骑士1 小时前
Gemini赋能安全工程师:自动生成PoC脚本的技术实践
人工智能·安全
穗余1 小时前
2026 AI x Web3 School共学营笔记-Day4
人工智能·区块链
谢白羽1 小时前
Voicebox 深度指南:开源本地 AI 语音工作室完整评测与上手教程
人工智能·python·开源·tts·voicebox
QBoson1 小时前
Nature:破译蛋白质隐形能量景观,从“看结构”到“控动态”的革命
人工智能·机器学习