第一部分:基础概念
-
神经元模型
请用数学公式描述一个人工神经元(感知机)的运算过程,并解释每个符号的含义。
-
激活函数
为什么神经网络需要激活函数?列举3种常见的激活函数及其优缺点。
-
损失函数
分类任务和回归任务常用的损失函数分别是什么?写出它们的数学形式。
第二部分:前向传播与反向传播
-
计算图
假设有一个简单网络:输入层→全连接层(权重矩阵W,偏置b)→ReLU激活→输出层。给定输入x,请写出前向传播的公式。
-
链式法则
反向传播中如何通过链式法则计算损失对权重W的梯度?以均方误差(MSE)损失为例说明。
-
梯度消失/爆炸
梯度消失和梯度爆炸问题是如何产生的?举出一种缓解方法。
第三部分:网络架构
-
CNN与全连接网络的区别
卷积神经网络(CNN)为什么比全连接网络更适合图像任务?解释卷积核的作用。
-
RNN与LSTM
循环神经网络(RNN)的长期依赖问题是什么?LSTM如何通过门控机制解决这一问题?
-
Transformer的革新
Transformer模型为何在自然语言处理中取代了RNN?解释其核心机制(如自注意力)。
第四部分:训练与优化
-
过拟合与正则化
什么是过拟合?列举3种防止过拟合的方法(如Dropout),并解释其中一种的原理。
-
优化器对比
SGD、Momentum、Adam优化器的主要区别是什么?Adam为什么更受欢迎?
-
Batch Normalization
批归一化(BatchNorm)的作用是什么?它在训练和推理时的计算方式有何不同?
第五部分:进阶问题
-
注意力机制
解释注意力机制的核心思想,并写出注意力权重的计算公式(如缩放点积注意力)。
-
迁移学习
为什么迁移学习在小数据集上有效?以预训练的ImageNet模型为例说明。
-
生成对抗网络(GAN)
GAN的生成器和判别器如何博弈?写出GAN的损失函数(minimax公式)。