深度学习与强化学习面试八股文知识点汇总
1. 深度学习基础八股
1.1 优化器
-
SGD (随机梯度下降)
- 每次随机选取一个样本计算梯度并更新参数。
- 优点:计算速度快,支持在线学习。
- 缺点:更新方向不稳定,可能收敛到局部最优。
- 引入 Momentum (动量) 可加速收敛并抑制震荡。
-
Adam
- 结合 Momentum 和 RMSprop,自适应调整学习率。
- 优点:经偏置校正后训练过程更平稳,收敛快。
- 缺点:可能对前期特征过拟合,泛化能力有时不如精调后的 SGD。
-
如何选择
- Adam 通常收敛更快;SGD 在精心调参后可能获得更好的泛化性能。
1.2 过拟合与欠拟合
-
定义
- 过拟合:模型在训练集上表现好,在测试集上表现差。
- 欠拟合:模型在训练集和测试集上表现都差。
-
成因
- 过拟合:模型过于复杂、训练数据少、噪声干扰。
- 欠拟合:模型过于简单、特征不足。
-
解决方案
- 过拟合:降低模型复杂度、数据增强、正则化 (L1/L2)、Dropout、早停法 (Early Stopping)。
- 欠拟合:增加模型复杂度、添加更多特征、减少正则化。
-
偏差-方差权衡
- 高偏差对应欠拟合,高方差对应过拟合。
1.3 归一化 (Batch Normalization, BN)
- 作用:加速收敛,缓解梯度消失/爆炸。
- 训练与推理的差异
- 训练时:使用当前 mini-batch 的均值和方差。
- 推理时:使用训练集整体的全局统计量(通常由移动平均估算)。
1.4 深度学习常见面试问题
SGD 和 Adam 的区别是什么?过拟合和欠拟合分别指什么?原因及解决方法有哪些?批量归一化 (BN) 的原理和作用?训练与推理时有何不同?请解释偏差和方差的区别。
2. 强化学习基础八股
2.1 定义与关键要素
- 定义:智能体通过与环境交互,根据奖励信号进行试错学习,以最大化累积奖励。
- 核心要素:智能体 (Agent)、环境 (Environment)、状态 (State)、动作 (Action)、奖励 (Reward)、策略 (Policy)、价值函数 (Value Function)、折扣因子 (Discount Factor)。
2.2 与其它学习范式的区别
- 监督学习:依赖带标签的数据,提供正确答案。
- 无监督学习:无标签数据,模型自行发现数据内在模式。
- 强化学习:通过与环境交互获得的奖励信号学习,需要平衡探索与利用。
2.3 核心概念对比
-
Model-based vs. Model-free
- Model-based:依赖环境模型进行规划。
- Model-free:不显式构建环境模型,直接从交互中学习。
-
On-policy vs. Off-policy
- On-policy:生成样本的策略与被优化的策略是同一个 (如 SARSA)。
- Off-policy:生成样本的策略与被优化的策略可以不同 (如 Q-learning)。
-
Value-based vs. Policy-based
- Value-based:学习最优价值函数,间接得到策略 (如 DQN)。
- Policy-based:直接对策略进行参数化并优化 (如策略梯度)。
2.4 贝尔曼方程 (Bellman Equation)
- 是强化学习中价值函数迭代更新的核心公式,可以写出状态价值函数 V(s) 或动作价值函数 Q(s,a) 的贝尔曼方程。
2.5 强化学习常见面试问题
强化学习与监督学习、无监督学习的区别?什么是马尔可夫决策过程 (MDP)?On-policy 和 Off-policy 的区别?Model-based 和 Model-free 的区别?
3. 深度强化学习与经典算法
3.1 DQN 系列
-
DQN (Deep Q-Network)
- 用神经网络替代 Q-table,处理高维状态空间。
- 两大核心技巧:经验回放 (Experience Replay) (打破数据相关性) 和 目标网络 (Target Network) (稳定训练)。
-
Double DQN
- 解耦动作选择与动作评估:用主网络选择最优动作,目标网络评估该动作的 Q 值,缓解 Q 值过估计。
-
Dueling DQN
- 将 Q 网络拆分为状态价值 V(s) 和动作优势 A(s,a) 两部分,学习更高效。
-
常见问题
DQN 的两个关键 trick 是什么?各自的作用?Double DQN 如何解决 Q 值过估计问题?
3.2 策略梯度 (Policy Gradient)
-
核心思想:直接对策略 π(a|s) 进行参数化,通过梯度上升优化策略参数,使高回报动作的概率增大。
-
Actor-Critic 架构
- Actor 负责输出动作概率,Critic 负责评估当前策略的好坏 (如计算优势函数 A(s,a))。
-
常见问题
请推导策略梯度。Actor-Critic 框架中 Actor 和 Critic 的作用?
3.3 DDPG (Deep Deterministic Policy Gradient)
- 专用于连续动作空间的 Off-policy 算法。
- 采用 Actor-Critic 架构,同样使用经验回放和目标网络来稳定训练。
3.4 PPO (Proximal Policy Optimization)
- 基本思想 :在优化目标函数中引入 Clip (裁剪) 机制,限制新旧策略的差异,保证训练稳定。
- 优势函数:通常使用 GAE (Generalized Advantage Estimation) 平衡偏差与方差。
- 与 TRPO 的关系:PPO 是 TRPO 的简化版,用 Clip 操作替代复杂的 KL 散度约束,计算更高效。
- 在大模型中的应用:PPO 是 RLHF (基于人类反馈的强化学习) 中的核心算法,用于微调大语言模型。
- 常见问题
简述 PPO 算法原理,与 TRPO 有何关系?PPO 中 Clip 操作的作用?PPO 是 On-policy 还是 Off-policy?为什么?什么是优势函数?PPO 中如何计算?
3.5 TD3 (Twin Delayed DDPG)
-
核心改进
- Clipped Double Q-learning:使用两个 Critic 网络,取较小 Q 值计算目标,缓解 Q 值过估计。
- Delayed Policy Updates:降低 Actor 更新频率,让 Critic 先训练充分,策略更新更稳定。
- Target Policy Smoothing:在目标动作上加噪声,使价值函数估计更平滑,防止策略利用函数近似误差。
-
常见问题
TD3 如何解决 Q 值过估计?TD3 与 DDPG 的主要区别?
4. 模仿学习 (Imitation Learning)
核心思想是从专家示范数据中学习策略。
-
行为克隆 (Behavioral Cloning, BC)
- 将有监督学习直接应用于状态-动作对,学习映射关系。
- 优点:简单高效。
- 缺点:存在分布偏移 (Distributional Shift) 问题,累计误差可能较大。
-
逆强化学习 (Inverse Reinforcement Learning, IRL)
- 从专家示范中反推奖励函数,再基于该奖励函数进行强化学习。
- 优点:比 BC 更鲁棒。
- 缺点:计算成本高。
-
生成对抗模仿学习 (GAIL)
- 使用 GAN 框架,生成器作为策略生成轨迹,判别器区分生成轨迹与专家轨迹。
- 优点:能学习更复杂的策略。
- 缺点:训练过程复杂。
5. 面试常见问答示例
Q: 强化学习和监督学习的主要区别是什么?
A: 监督学习通过与正确答案(标签)比较来学习,强化学习通过与环境交互获得的奖励信号进行试错学习,需要平衡探索与利用,更接近人类学习方式。
Q: DQN 中的经验回放和经验池有什么作用?
A: 经验回放将状态转移存入经验池,训练时随机采样。主要作用是打破数据时序相关性,提高样本效率,使训练更稳定。
Q: 如何设计一个智能体来玩简单的迷宫游戏?
A: 将迷宫位置定义为状态,上下左右移动定义为动作。到达终点给予正奖励 (+10),撞墙给予负奖励 (-1),其余步数给予小的负奖励以鼓励最短路径。可使用 Q-learning 算法,通过迭代更新 Q 表找到最优路径。
持续补充中...