
1. 卷积层的权重数量:什么因素无关?
问题: 以下哪个因素不影响卷积层中权重的数量?
- 卷积核大小
- 输入通道数
- 输出通道数
- 输入特征图的尺寸
解析:
在卷积神经网络(CNN)中,权重是网络需要学习的参数。具体来说:
- 权重数量 = 卷积核高度 × 卷积核宽度 × 输入通道数 × 输出通道数
- 输入特征图的尺寸(高度和宽度)只影响输出特征图的尺寸和计算量,但不改变权重的数量。
为什么重要?
理解这一点有助于你估算模型参数量,从而管理内存使用和计算资源。无论处理的是32×32的小图像还是1024×1024的大图像,只要网络结构不变,参数量就固定。
2. Dropout(0.3)在PyTorch中意味着什么?
问题: 在PyTorch中,一个层后接Dropout(0.3)会发生什么?
- 推理时只使用70%的神经元 ❌
- 推理时只使用30%的神经元 ❌
- 训练时只使用70%的神经元 ✅
- 训练时只使用30%的神经元 ❌
解析:
Dropout是一种正则化技术,用于防止过拟合:
Dropout(0.3)表示在训练阶段,每个神经元有30%的概率被随机"丢弃"(输出置零)- 这意味着在训练时,平均只有70%的神经元被激活
- 在推理/测试阶段,Dropout被关闭,所有神经元都参与计算
类比理解:
想象一支篮球队训练时,教练随机让部分队员坐冷板凳(Dropout),迫使剩下的队员学会更好地协作。比赛时(推理),所有队员都上场,团队因此更加稳健。
3. 分类问题中的"标签"是什么?
问题: 在分类问题中,"标签"指的是什么?
- 样本的目标输出值 ✅
- 类别的名称
- 要训练的模型
- 输入特征的名字
解析:
标签是监督学习的核心概念:
- 特征(Features):模型的输入数据(如图像像素、文本词向量)
- 标签(Label):我们希望模型预测的正确输出(如"猫"、"狗"、"汽车")
- 在训练过程中,模型学习从特征到标签的映射关系
示例:
一个手写数字识别任务中:
- 特征:28×28的像素矩阵
- 标签:该数字实际是什么(0-9)
4. 回归模型评估的常用指标
问题: 评估回归模型性能时常用哪个指标?
- 准确率(分类指标)
- 精确率(分类指标)
- 均方误差(MSE) ✅
- F1分数(分类指标)
解析:
不同任务需要不同的评估指标:
- 分类任务:关注正确率 → 使用准确率、精确率、召回率、F1分数
- 回归任务:预测连续值 → 使用均方误差(MSE)、平均绝对误差(MAE)、R²分数
MSE公式:
MSE = (1/n) × Σ(预测值 - 真实值)²
它惩罚大的误差更多,是回归问题最常用的损失函数和评估指标。
5. 混淆矩阵的迹(对角线之和)代表什么?
问题: 混淆矩阵的迹(对角线元素之和)对应什么?
- 正确分类的样本数 ✅
- 总预测误差
- 总样本数
- 样本总方差
解析:
混淆矩阵是分类模型的性能矩阵:
- 行:真实类别
- 列:预测类别
- 对角线元素:预测正确的样本数(真实类别=预测类别)
- 迹(对角线之和):所有类别中正确分类的总样本数
示例:
一个3类分类问题的混淆矩阵对角线为[50, 30, 40],则:
- 类别1正确分类了50个样本
- 类别2正确分类了30个样本
- 类别3正确分类了40个样本
- 总正确数 = 50 + 30 + 40 = 120
6. 验证数据的真正用途
问题: 使用验证数据的目的是什么?
- 检查训练数据标签的正确性
- 识别数据中的异常值
- 估计模型在未见数据上的性能 ✅
- 确定最佳训练样本数
解析:
在机器学习工作流中,数据通常分为三部分:
- 训练集(70-80%):用于训练模型参数
- 验证集(10-15%):用于调整超参数、选择模型、早停等
- 测试集(10-15%):用于最终评估模型性能
关键区别:
- 验证集在开发阶段使用,帮助你做模型相关的决策
- 测试集在最终评估使用,应只使用一次,反映模型的真实泛化能力
7. 逻辑回归的用途
问题: 逻辑回归用于什么?
- 二分类问题 ✅
- 密度估计
- 寻找聚类
- 函数逼近
解析:
尽管名字中有"回归",逻辑回归实际上是分类算法:
- 输出是0到1之间的概率值
- 通过sigmoid函数将线性回归的输出映射到概率空间
- 常用于二元分类(是/否、垃圾邮件/非垃圾邮件、患病/健康)
工作方式:
- 计算输入特征的加权和(线性部分)
- 通过sigmoid函数:σ(z) = 1/(1 + e⁻ᶻ)
- 将结果解释为属于正类的概率
8. 输出范围为[0, ∞)的激活函数
问题: 以下哪个激活函数的输出范围是[0, ∞)?
- tanh(范围:[-1, 1])
- ReLU(范围:[0, ∞)) ✅
- linear(范围:(-∞, ∞))
- sigmoid(范围:[0, 1])
解析:
激活函数为神经网络引入非线性:
- ReLU(修正线性单元) :f(x) = max(0, x)
- 优点:计算简单,缓解梯度消失问题
- 缺点:负区间梯度为0("死亡ReLU"问题)
- Sigmoid:将输入压缩到(0,1),适合输出概率
- Tanh:将输入压缩到(-1,1),输出以0为中心
- Leaky ReLU:ReLU的改进版,负区间有小的斜率
9. 迁移学习的目的
问题: 迁移学习的目的是什么?
- 发现数据中的异常
- 将训练好的模型应用于相关任务 ✅
- 识别分类数据的有用特征
- 生成更多相似训练数据
解析:
迁移学习是解决现实问题的强大工具:
- 预训练:在大规模数据集(如ImageNet)上训练基础模型
- 微调:在小规模特定任务数据上调整模型
- 优势:减少训练时间、数据需求和计算资源
实际应用:
- 医学影像分析:用ImageNet预训练的CNN识别X光片
- 文本情感分析:用BERT等预训练模型分析特定领域评论
- 自动驾驶:将一般物体检测模型适应于交通场景
10. 神经网络中的梯度是什么?
问题: 在神经网络训练中,梯度下降的"梯度"指的是什么?
- 损失相对于输入的变化
- 输出相对于输入的变化
- 输出相对于权重的变化
- 损失相对于权重的变化 ✅
解析:
这是深度学习的核心数学原理:
- 损失函数:衡量模型预测与真实值的差距
- 梯度:损失函数关于每个权重的偏导数
- 梯度下降:沿着梯度反方向更新权重,以最小化损失
直观理解:
想象你在山区寻找最低点(最小损失):
- 你当前位置的海拔是当前损失值
- 梯度告诉你哪个方向最陡峭地下山
- 每一步(学习率)都朝着最陡的下坡方向移动