深度学习与强化学习面试八股文知识点汇总

SGD (随机梯度下降)
- 每次随机选取一个样本计算梯度并更新参数。
- 优点：计算速度快，支持在线学习。
- 缺点：更新方向不稳定，可能收敛到局部最优。
- 引入 Momentum (动量) 可加速收敛并抑制震荡。
Adam
- 结合 Momentum 和 RMSprop，自适应调整学习率。
- 优点：经偏置校正后训练过程更平稳，收敛快。
- 缺点：可能对前期特征过拟合，泛化能力有时不如精调后的 SGD。
如何选择
- Adam 通常收敛更快；SGD 在精心调参后可能获得更好的泛化性能。

定义
- 过拟合：模型在训练集上表现好，在测试集上表现差。
- 欠拟合：模型在训练集和测试集上表现都差。
成因
- 过拟合：模型过于复杂、训练数据少、噪声干扰。
- 欠拟合：模型过于简单、特征不足。
解决方案
- 过拟合：降低模型复杂度、数据增强、正则化 (L1/L2)、Dropout、早停法 (Early Stopping)。
- 欠拟合：增加模型复杂度、添加更多特征、减少正则化。
偏差-方差权衡
- 高偏差对应欠拟合，高方差对应过拟合。

定义：智能体通过与环境交互，根据奖励信号进行试错学习，以最大化累积奖励。
核心要素：智能体 (Agent)、环境 (Environment)、状态 (State)、动作 (Action)、奖励 (Reward)、策略 (Policy)、价值函数 (Value Function)、折扣因子 (Discount Factor)。

Model-based vs. Model-free
- Model-based：依赖环境模型进行规划。
- Model-free：不显式构建环境模型，直接从交互中学习。
On-policy vs. Off-policy
- On-policy：生成样本的策略与被优化的策略是同一个 (如 SARSA)。
- Off-policy：生成样本的策略与被优化的策略可以不同 (如 Q-learning)。
Value-based vs. Policy-based
- Value-based：学习最优价值函数，间接得到策略 (如 DQN)。
- Policy-based：直接对策略进行参数化并优化 (如策略梯度)。

DQN (Deep Q-Network)
- 用神经网络替代 Q-table，处理高维状态空间。
- 两大核心技巧：经验回放 (Experience Replay) (打破数据相关性) 和 目标网络 (Target Network) (稳定训练)。
Double DQN
- 解耦动作选择与动作评估：用主网络选择最优动作，目标网络评估该动作的 Q 值，缓解 Q 值过估计。
Dueling DQN
- 将 Q 网络拆分为状态价值 V(s) 和动作优势 A(s,a) 两部分，学习更高效。
常见问题
- DQN 的两个关键 trick 是什么？各自的作用？
- Double DQN 如何解决 Q 值过估计问题？

基本思想 ：在优化目标函数中引入 Clip (裁剪) 机制，限制新旧策略的差异，保证训练稳定。
优势函数：通常使用 GAE (Generalized Advantage Estimation) 平衡偏差与方差。
与 TRPO 的关系：PPO 是 TRPO 的简化版，用 Clip 操作替代复杂的 KL 散度约束，计算更高效。
在大模型中的应用：PPO 是 RLHF (基于人类反馈的强化学习) 中的核心算法，用于微调大语言模型。
常见问题
- 简述 PPO 算法原理，与 TRPO 有何关系？
- PPO 中 Clip 操作的作用？
- PPO 是 On-policy 还是 Off-policy？为什么？
- 什么是优势函数？PPO 中如何计算？

核心改进
1. Clipped Double Q-learning：使用两个 Critic 网络，取较小 Q 值计算目标，缓解 Q 值过估计。
2. Delayed Policy Updates：降低 Actor 更新频率，让 Critic 先训练充分，策略更新更稳定。
3. Target Policy Smoothing：在目标动作上加噪声，使价值函数估计更平滑，防止策略利用函数近似误差。
常见问题
- TD3 如何解决 Q 值过估计？
- TD3 与 DDPG 的主要区别？

核心思想是从专家示范数据中学习策略。

行为克隆 (Behavioral Cloning, BC)
- 将有监督学习直接应用于状态-动作对，学习映射关系。
- 优点：简单高效。
- 缺点：存在分布偏移 (Distributional Shift) 问题，累计误差可能较大。
逆强化学习 (Inverse Reinforcement Learning, IRL)
- 从专家示范中反推奖励函数，再基于该奖励函数进行强化学习。
- 优点：比 BC 更鲁棒。
- 缺点：计算成本高。
生成对抗模仿学习 (GAIL)
- 使用 GAN 框架，生成器作为策略生成轨迹，判别器区分生成轨迹与专家轨迹。
- 优点：能学习更复杂的策略。
- 缺点：训练过程复杂。

Q: 强化学习和监督学习的主要区别是什么？

A: 监督学习通过与正确答案（标签）比较来学习，强化学习通过与环境交互获得的奖励信号进行试错学习，需要平衡探索与利用，更接近人类学习方式。

Q: DQN 中的经验回放和经验池有什么作用？

A: 经验回放将状态转移存入经验池，训练时随机采样。主要作用是打破数据时序相关性，提高样本效率，使训练更稳定。

Q: 如何设计一个智能体来玩简单的迷宫游戏？

A: 将迷宫位置定义为状态，上下左右移动定义为动作。到达终点给予正奖励 (+10)，撞墙给予负奖励 (-1)，其余步数给予小的负奖励以鼓励最短路径。可使用 Q-learning 算法，通过迭代更新 Q 表找到最优路径。

持续补充中...