什么是简单的CNN分类模型?
CNN分类模型使用卷积层提取特征、池化层降维、全连接层输出类别概率,通过Softmax激活实现多类分类。
什么是简单的CNN回归模型?
CNN回归模型类似分类,但输出层为线性Dense(1),用MSE损失预测连续值,如图像回归任务。
什么是CNN中的卷积?
卷积是滑动滤波器提取局部特征,实现参数共享和平移不变性。
什么是CNN中的池化?
池化如MaxPooling下采样特征图,增大感受野并减少计算量。
什么是CNN中的激活函数?
激活如ReLU引入非线性,帮助模型学习复杂模式。
什么是简单的LSTM分类模型?
LSTM分类模型处理序列数据,用门机制捕捉长依赖,输出层Softmax分类序列标签。
什么是简单的LSTM回归模型?
LSTM回归模型类似分类,但输出连续值,用MSE损失预测如时间序列值。
什么是LSTM中的遗忘门?
遗忘门决定哪些旧信息丢弃,通过sigmoid控制细胞状态更新。
什么是LSTM中的输入门?
输入门选择新信息加入细胞状态,结合tanh生成候选值。
什么是LSTM中的输出门?
输出门基于细胞状态产生隐藏输出,通过sigmoid过滤。
什么是简单的Transformer分类模型?
Transformer分类模型用自注意力处理序列,编码器-解码器结构,输出层Softmax分类。
什么是简单的Transformer回归模型?
Transformer回归模型类似分类,但输出线性层预测连续值,用MSE损失。
什么是Transformer中的自注意力?
自注意力计算序列元素间相关性,通过QKV矩阵加权聚合上下文。
什么是Transformer中的位置编码?
位置编码添加位置信息到嵌入,帮助模型捕捉序列顺序。
什么是Transformer中的多头注意力?
多头注意力并行多个注意力头,捕捉不同子空间关系,提升表示能力。
什么是机器学习模型?
机器学习模型是从数据中学习参数的函数,用于预测或分类新数据,如线性回归或神经网络。
什么是梯度?
梯度是损失函数对模型参数的偏导数向量,指示损失上升最快的方向,用于参数更新。
什么是梯度下降?
梯度下降通过沿负梯度方向迭代更新参数,最小化损失函数,如w ← w - η∇L。
什么是损失函数?
损失函数量化模型预测与真实值差异,如MSE用于回归,交叉熵用于分类。
什么是过拟合?
过拟合是模型在训练数据上表现好但泛化差,因捕捉噪声而非模式。
什么是欠拟合?
欠拟合是模型太简单,无法捕捉数据模式,在训练和测试上都表现差。
什么是反向传播?
反向传播用链式法则计算梯度,从输出层向输入层传播误差,高效训练深层网络。
什么是学习率?
学习率是梯度下降步长η,控制参数更新幅度,太大不收敛,太小太慢。
什么是优化器?
优化器如Adam/SGD,使用梯度更新参数,添加动量或自适应学习率加速收敛。
什么是批次大小?
批次大小是每次梯度计算的数据样本数,影响训练稳定性和内存使用。
什么是嵌入?
嵌入是将离散数据如词或氨基酸映射到连续向量空间的低维表示,提高模型效率。
什么是注意力机制?
注意力机制计算序列元素间权重,动态聚焦相关部分,如Transformer中的QKV计算。
什么是Softmax?
Softmax将向量转为概率分布,sum=1,用于多类分类输出。
什么是Sigmoid?
Sigmoid是激活函数σ(x)=1/(1+e^{-x}),输出0-1,用于二分类或门控。
什么是交叉熵?
交叉熵测量两个概率分布差异,用于分类损失,鼓励预测接近真实标签。
什么是MSE?
MSE是均方误差,计算预测与真实连续值平方差平均,用于回归任务。
以下按「从输入到输出」的真实流程顺序,给你面试必考、前面没提过的概念(每条1-2句秒答):
什么是输入编码(Input Encoding)?
将原始数据(如序列、图像)转为张量,如one-hot、token embedding或图像像素归一化。
什么是Padding与Mask?
长度不一的序列补0(padding),用mask告诉模型哪些位置是假的,避免参与计算。
什么是Token Embedding?
将离散ID映射到稠密向量,可学习或用预训练(如ProtBERT、ESM)。
什么是位置编码(Positional Encoding)?
给每个位置加固定或可学习的向量,让模型感知顺序(如Transformer正弦编码)。
什么是Layer Normalization?
对每一层的特征在通道维度做归一化,比BatchNorm对变长序列更稳定。
什么是残差连接(Residual Connection)?
输出 = 输入 + 子层输出,解决深层网络退化与梯度消失。
什么是Feed-Forward Network(FFN)?
Transformer每层注意力后的两层全连接(Linear→ReLU→Linear),逐位置变换特征。
什么是Dropout?
训练时随机置零部分神经元,防止过拟合。
什么是全局池化(Global Pooling)?
把变长特征图压成固定向量,如GlobalAveragePooling或GlobalMaxPooling。
什么是Flatten?
将多维特征展平成一维向量,喂入最终全连接层(易过拟合)。
什么是输出头(Head)?
任务专用最后一层,分类用Dense+Softmax,回归用Dense(1)无激活。
什么是标签平滑(Label Smoothing)?
把one-hot标签从[1,0,0]改为[0.9,0.05,0.05],防止模型过度自信。
什么是混合精度训练(Mixed Precision)?
用FP16计算、FP32存储权重,加速训练并减少显存。
什么是梯度累积(Gradient Accumulation)?
显存不足时,分多步累加小batch梯度,再一次更新,模拟大batch。
什么是推理时去Dropout/BN?
推理时关闭Dropout,使用BN的运行均值/方差,保证确定性输出。
背完这20条,从输入到输出全链路无死角,面试再也不怕被问细节。