深度学习测试题与解析

1. 卷积层的权重数量：什么因素无关？

问题： 以下哪个因素不影响卷积层中权重的数量？

卷积核大小
输入通道数
输出通道数
输入特征图的尺寸

解析：

在卷积神经网络（CNN）中，权重是网络需要学习的参数。具体来说：

权重数量 = 卷积核高度 × 卷积核宽度 × 输入通道数 × 输出通道数
输入特征图的尺寸（高度和宽度）只影响输出特征图的尺寸和计算量，但不改变权重的数量。

为什么重要？

理解这一点有助于你估算模型参数量，从而管理内存使用和计算资源。无论处理的是32×32的小图像还是1024×1024的大图像，只要网络结构不变，参数量就固定。

2. Dropout(0.3)在PyTorch中意味着什么？

问题： 在PyTorch中，一个层后接Dropout(0.3)会发生什么？

推理时只使用70%的神经元 ❌
推理时只使用30%的神经元 ❌
训练时只使用70%的神经元 ✅
训练时只使用30%的神经元 ❌

解析：

Dropout是一种正则化技术，用于防止过拟合：

Dropout(0.3)表示在训练阶段，每个神经元有30%的概率被随机"丢弃"（输出置零）
这意味着在训练时，平均只有70%的神经元被激活
在推理/测试阶段，Dropout被关闭，所有神经元都参与计算

类比理解：

想象一支篮球队训练时，教练随机让部分队员坐冷板凳（Dropout），迫使剩下的队员学会更好地协作。比赛时（推理），所有队员都上场，团队因此更加稳健。

3. 分类问题中的"标签"是什么？

问题： 在分类问题中，"标签"指的是什么？

样本的目标输出值 ✅
类别的名称
要训练的模型
输入特征的名字

解析：

标签是监督学习的核心概念：

特征（Features）：模型的输入数据（如图像像素、文本词向量）
标签（Label）：我们希望模型预测的正确输出（如"猫"、"狗"、"汽车"）
在训练过程中，模型学习从特征到标签的映射关系

示例：

一个手写数字识别任务中：

特征：28×28的像素矩阵
标签：该数字实际是什么（0-9）

4. 回归模型评估的常用指标

问题： 评估回归模型性能时常用哪个指标？

准确率（分类指标）
精确率（分类指标）
均方误差（MSE） ✅
F1分数（分类指标）

解析：

不同任务需要不同的评估指标：

分类任务：关注正确率 → 使用准确率、精确率、召回率、F1分数
回归任务：预测连续值 → 使用均方误差（MSE）、平均绝对误差（MAE）、R²分数

MSE公式：

MSE = (1/n) × Σ(预测值 - 真实值)²

它惩罚大的误差更多，是回归问题最常用的损失函数和评估指标。

5. 混淆矩阵的迹（对角线之和）代表什么？

问题： 混淆矩阵的迹（对角线元素之和）对应什么？

正确分类的样本数 ✅
总预测误差
总样本数
样本总方差

解析：

混淆矩阵是分类模型的性能矩阵：

行：真实类别
列：预测类别
对角线元素：预测正确的样本数（真实类别=预测类别）
迹（对角线之和）：所有类别中正确分类的总样本数

示例：

一个3类分类问题的混淆矩阵对角线为[50, 30, 40]，则：

类别1正确分类了50个样本
类别2正确分类了30个样本
类别3正确分类了40个样本
总正确数 = 50 + 30 + 40 = 120

6. 验证数据的真正用途

问题： 使用验证数据的目的是什么？

检查训练数据标签的正确性
识别数据中的异常值
估计模型在未见数据上的性能 ✅
确定最佳训练样本数

解析：

在机器学习工作流中，数据通常分为三部分：

训练集（70-80%）：用于训练模型参数
验证集（10-15%）：用于调整超参数、选择模型、早停等
测试集（10-15%）：用于最终评估模型性能

关键区别：

验证集在开发阶段使用，帮助你做模型相关的决策
测试集在最终评估使用，应只使用一次，反映模型的真实泛化能力

7. 逻辑回归的用途

问题： 逻辑回归用于什么？

二分类问题 ✅
密度估计
寻找聚类
函数逼近

解析：

尽管名字中有"回归"，逻辑回归实际上是分类算法：

输出是0到1之间的概率值
通过sigmoid函数将线性回归的输出映射到概率空间
常用于二元分类（是/否、垃圾邮件/非垃圾邮件、患病/健康）

工作方式：

计算输入特征的加权和（线性部分）
通过sigmoid函数：σ(z) = 1/(1 + e⁻ᶻ)
将结果解释为属于正类的概率

8. 输出范围为[0, ∞)的激活函数

问题： 以下哪个激活函数的输出范围是[0, ∞)？

tanh（范围：[-1, 1]）
ReLU（范围：[0, ∞)） ✅
linear（范围：(-∞, ∞)）
sigmoid（范围：[0, 1]）

解析：

激活函数为神经网络引入非线性：

ReLU（修正线性单元） ：f(x) = max(0, x)
- 优点：计算简单，缓解梯度消失问题
- 缺点：负区间梯度为0（"死亡ReLU"问题）
Sigmoid：将输入压缩到(0,1)，适合输出概率
Tanh：将输入压缩到(-1,1)，输出以0为中心
Leaky ReLU：ReLU的改进版，负区间有小的斜率

9. 迁移学习的目的

问题： 迁移学习的目的是什么？

发现数据中的异常
将训练好的模型应用于相关任务 ✅
识别分类数据的有用特征
生成更多相似训练数据

解析：

迁移学习是解决现实问题的强大工具：

预训练：在大规模数据集（如ImageNet）上训练基础模型
微调：在小规模特定任务数据上调整模型
优势：减少训练时间、数据需求和计算资源

实际应用：

医学影像分析：用ImageNet预训练的CNN识别X光片
文本情感分析：用BERT等预训练模型分析特定领域评论
自动驾驶：将一般物体检测模型适应于交通场景

10. 神经网络中的梯度是什么？

问题： 在神经网络训练中，梯度下降的"梯度"指的是什么？

损失相对于输入的变化
输出相对于输入的变化
输出相对于权重的变化
损失相对于权重的变化 ✅

解析：

这是深度学习的核心数学原理：

损失函数：衡量模型预测与真实值的差距
梯度：损失函数关于每个权重的偏导数
梯度下降：沿着梯度反方向更新权重，以最小化损失

直观理解：

想象你在山区寻找最低点（最小损失）：

你当前位置的海拔是当前损失值
梯度告诉你哪个方向最陡峭地下山
每一步（学习率）都朝着最陡的下坡方向移动