深度学习与强化学习面试八股文知识点汇总

深度学习与强化学习面试八股文知识点汇总

1. 深度学习基础八股

1.1 优化器

  • SGD (随机梯度下降)

    • 每次随机选取一个样本计算梯度并更新参数。
    • 优点:计算速度快,支持在线学习。
    • 缺点:更新方向不稳定,可能收敛到局部最优。
    • 引入 Momentum (动量) 可加速收敛并抑制震荡。
  • Adam

    • 结合 Momentum 和 RMSprop,自适应调整学习率。
    • 优点:经偏置校正后训练过程更平稳,收敛快。
    • 缺点:可能对前期特征过拟合,泛化能力有时不如精调后的 SGD。
  • 如何选择

    • Adam 通常收敛更快;SGD 在精心调参后可能获得更好的泛化性能。

1.2 过拟合与欠拟合

  • 定义

    • 过拟合:模型在训练集上表现好,在测试集上表现差。
    • 欠拟合:模型在训练集和测试集上表现都差。
  • 成因

    • 过拟合:模型过于复杂、训练数据少、噪声干扰。
    • 欠拟合:模型过于简单、特征不足。
  • 解决方案

    • 过拟合:降低模型复杂度、数据增强、正则化 (L1/L2)、Dropout、早停法 (Early Stopping)。
    • 欠拟合:增加模型复杂度、添加更多特征、减少正则化。
  • 偏差-方差权衡

    • 高偏差对应欠拟合,高方差对应过拟合。

1.3 归一化 (Batch Normalization, BN)

  • 作用:加速收敛,缓解梯度消失/爆炸。
  • 训练与推理的差异
    • 训练时:使用当前 mini-batch 的均值和方差。
    • 推理时:使用训练集整体的全局统计量(通常由移动平均估算)。

1.4 深度学习常见面试问题

  • SGD 和 Adam 的区别是什么?
  • 过拟合和欠拟合分别指什么?原因及解决方法有哪些?
  • 批量归一化 (BN) 的原理和作用?训练与推理时有何不同?
  • 请解释偏差和方差的区别。

2. 强化学习基础八股

2.1 定义与关键要素

  • 定义:智能体通过与环境交互,根据奖励信号进行试错学习,以最大化累积奖励。
  • 核心要素:智能体 (Agent)、环境 (Environment)、状态 (State)、动作 (Action)、奖励 (Reward)、策略 (Policy)、价值函数 (Value Function)、折扣因子 (Discount Factor)。

2.2 与其它学习范式的区别

  • 监督学习:依赖带标签的数据,提供正确答案。
  • 无监督学习:无标签数据,模型自行发现数据内在模式。
  • 强化学习:通过与环境交互获得的奖励信号学习,需要平衡探索与利用。

2.3 核心概念对比

  • Model-based vs. Model-free

    • Model-based:依赖环境模型进行规划。
    • Model-free:不显式构建环境模型,直接从交互中学习。
  • On-policy vs. Off-policy

    • On-policy:生成样本的策略与被优化的策略是同一个 (如 SARSA)。
    • Off-policy:生成样本的策略与被优化的策略可以不同 (如 Q-learning)。
  • Value-based vs. Policy-based

    • Value-based:学习最优价值函数,间接得到策略 (如 DQN)。
    • Policy-based:直接对策略进行参数化并优化 (如策略梯度)。

2.4 贝尔曼方程 (Bellman Equation)

  • 是强化学习中价值函数迭代更新的核心公式,可以写出状态价值函数 V(s) 或动作价值函数 Q(s,a) 的贝尔曼方程。

2.5 强化学习常见面试问题

  • 强化学习与监督学习、无监督学习的区别?
  • 什么是马尔可夫决策过程 (MDP)?
  • On-policy 和 Off-policy 的区别?
  • Model-based 和 Model-free 的区别?

3. 深度强化学习与经典算法

3.1 DQN 系列

  • DQN (Deep Q-Network)

    • 用神经网络替代 Q-table,处理高维状态空间。
    • 两大核心技巧:经验回放 (Experience Replay) (打破数据相关性) 和 目标网络 (Target Network) (稳定训练)。
  • Double DQN

    • 解耦动作选择与动作评估:用主网络选择最优动作,目标网络评估该动作的 Q 值,缓解 Q 值过估计。
  • Dueling DQN

    • 将 Q 网络拆分为状态价值 V(s) 和动作优势 A(s,a) 两部分,学习更高效。
  • 常见问题

    • DQN 的两个关键 trick 是什么?各自的作用?
    • Double DQN 如何解决 Q 值过估计问题?

3.2 策略梯度 (Policy Gradient)

  • 核心思想:直接对策略 π(a|s) 进行参数化,通过梯度上升优化策略参数,使高回报动作的概率增大。

  • Actor-Critic 架构

    • Actor 负责输出动作概率,Critic 负责评估当前策略的好坏 (如计算优势函数 A(s,a))。
  • 常见问题

    • 请推导策略梯度。
    • Actor-Critic 框架中 Actor 和 Critic 的作用?

3.3 DDPG (Deep Deterministic Policy Gradient)

  • 专用于连续动作空间的 Off-policy 算法。
  • 采用 Actor-Critic 架构,同样使用经验回放和目标网络来稳定训练。

3.4 PPO (Proximal Policy Optimization)

  • 基本思想 :在优化目标函数中引入 Clip (裁剪) 机制,限制新旧策略的差异,保证训练稳定。
  • 优势函数:通常使用 GAE (Generalized Advantage Estimation) 平衡偏差与方差。
  • 与 TRPO 的关系:PPO 是 TRPO 的简化版,用 Clip 操作替代复杂的 KL 散度约束,计算更高效。
  • 在大模型中的应用:PPO 是 RLHF (基于人类反馈的强化学习) 中的核心算法,用于微调大语言模型。
  • 常见问题
    • 简述 PPO 算法原理,与 TRPO 有何关系?
    • PPO 中 Clip 操作的作用?
    • PPO 是 On-policy 还是 Off-policy?为什么?
    • 什么是优势函数?PPO 中如何计算?

3.5 TD3 (Twin Delayed DDPG)

  • 核心改进

    1. Clipped Double Q-learning:使用两个 Critic 网络,取较小 Q 值计算目标,缓解 Q 值过估计。
    2. Delayed Policy Updates:降低 Actor 更新频率,让 Critic 先训练充分,策略更新更稳定。
    3. Target Policy Smoothing:在目标动作上加噪声,使价值函数估计更平滑,防止策略利用函数近似误差。
  • 常见问题

    • TD3 如何解决 Q 值过估计?
    • TD3 与 DDPG 的主要区别?

4. 模仿学习 (Imitation Learning)

核心思想是从专家示范数据中学习策略。

  • 行为克隆 (Behavioral Cloning, BC)

    • 将有监督学习直接应用于状态-动作对,学习映射关系。
    • 优点:简单高效。
    • 缺点:存在分布偏移 (Distributional Shift) 问题,累计误差可能较大。
  • 逆强化学习 (Inverse Reinforcement Learning, IRL)

    • 从专家示范中反推奖励函数,再基于该奖励函数进行强化学习。
    • 优点:比 BC 更鲁棒。
    • 缺点:计算成本高。
  • 生成对抗模仿学习 (GAIL)

    • 使用 GAN 框架,生成器作为策略生成轨迹,判别器区分生成轨迹与专家轨迹。
    • 优点:能学习更复杂的策略。
    • 缺点:训练过程复杂。

5. 面试常见问答示例

Q: 强化学习和监督学习的主要区别是什么?

A: 监督学习通过与正确答案(标签)比较来学习,强化学习通过与环境交互获得的奖励信号进行试错学习,需要平衡探索与利用,更接近人类学习方式。

Q: DQN 中的经验回放和经验池有什么作用?

A: 经验回放将状态转移存入经验池,训练时随机采样。主要作用是打破数据时序相关性,提高样本效率,使训练更稳定。

Q: 如何设计一个智能体来玩简单的迷宫游戏?

A: 将迷宫位置定义为状态,上下左右移动定义为动作。到达终点给予正奖励 (+10),撞墙给予负奖励 (-1),其余步数给予小的负奖励以鼓励最短路径。可使用 Q-learning 算法,通过迭代更新 Q 表找到最优路径。


持续补充中...

相关推荐
Z1Y492Vn3ZYD9et3B064 小时前
李彦宏:今年小龙虾明年可能螃蟹,AI的杀手级产品还没定型
人工智能
啊哈哈121384 小时前
系统设计复盘:为什么 Agent 的 ReAct 循环必须内嵌确定性保护层——以 FitMind 健康助手的路由与步骤控制为例
人工智能·python·react
@蔓蔓喜欢你4 小时前
数据可视化入门:让你的数据说话
人工智能·ai
2401_832298104 小时前
破解智能体幻觉难题,OpenClaw思维链重构,夯实工业级执行可靠性
人工智能
沪漂阿龙4 小时前
面试题详解:检索链路设计全攻略——RAG 检索架构、查询理解、多路召回、混合检索、Rerank、上下文构造与评估闭环
大数据·人工智能·架构
金融小师妹4 小时前
基于AI通胀预期模型与美元流动性监测框架的黄金6周新低行分析:美元五连涨周期下贵金属定价机制重构研究
大数据·人工智能·重构·逻辑回归·线性回归
gaosushexiangji5 小时前
DIC系统推荐:基于千眼狼三维数字图像相关的无人机旋翼疲劳试验全场应变与位移测量
人工智能·算法
智慧医养结合软件开源5 小时前
智慧养老系统医生管理模块:专业赋能,筑牢老人诊疗安全防线
大数据·人工智能·安全·生活
测试修炼手册5 小时前
[自动化测试] Playwright MCP实战:让AI直接操作浏览器做测试
人工智能