机器学习面试核心概念速览

什么是简单的CNN分类模型？

CNN分类模型使用卷积层提取特征、池化层降维、全连接层输出类别概率，通过Softmax激活实现多类分类。

什么是简单的CNN回归模型？

CNN回归模型类似分类，但输出层为线性Dense(1)，用MSE损失预测连续值，如图像回归任务。

什么是CNN中的卷积？

卷积是滑动滤波器提取局部特征，实现参数共享和平移不变性。

什么是CNN中的池化？

池化如MaxPooling下采样特征图，增大感受野并减少计算量。

什么是CNN中的激活函数？

激活如ReLU引入非线性，帮助模型学习复杂模式。

什么是简单的LSTM分类模型？

LSTM分类模型处理序列数据，用门机制捕捉长依赖，输出层Softmax分类序列标签。

什么是简单的LSTM回归模型？

LSTM回归模型类似分类，但输出连续值，用MSE损失预测如时间序列值。

什么是LSTM中的遗忘门？

遗忘门决定哪些旧信息丢弃，通过sigmoid控制细胞状态更新。

什么是LSTM中的输入门？

输入门选择新信息加入细胞状态，结合tanh生成候选值。

什么是LSTM中的输出门？

输出门基于细胞状态产生隐藏输出，通过sigmoid过滤。

什么是简单的Transformer分类模型？

Transformer分类模型用自注意力处理序列，编码器-解码器结构，输出层Softmax分类。

什么是简单的Transformer回归模型？

Transformer回归模型类似分类，但输出线性层预测连续值，用MSE损失。

什么是Transformer中的自注意力？

自注意力计算序列元素间相关性，通过QKV矩阵加权聚合上下文。

什么是Transformer中的位置编码？

位置编码添加位置信息到嵌入，帮助模型捕捉序列顺序。

什么是Transformer中的多头注意力？

多头注意力并行多个注意力头，捕捉不同子空间关系，提升表示能力。

什么是机器学习模型？

机器学习模型是从数据中学习参数的函数，用于预测或分类新数据，如线性回归或神经网络。

什么是梯度？

梯度是损失函数对模型参数的偏导数向量，指示损失上升最快的方向，用于参数更新。

什么是梯度下降？

梯度下降通过沿负梯度方向迭代更新参数，最小化损失函数，如w ← w - η∇L。

什么是损失函数？

损失函数量化模型预测与真实值差异，如MSE用于回归，交叉熵用于分类。

什么是过拟合？

过拟合是模型在训练数据上表现好但泛化差，因捕捉噪声而非模式。

什么是欠拟合？

欠拟合是模型太简单，无法捕捉数据模式，在训练和测试上都表现差。

什么是反向传播？

反向传播用链式法则计算梯度，从输出层向输入层传播误差，高效训练深层网络。

什么是学习率？

学习率是梯度下降步长η，控制参数更新幅度，太大不收敛，太小太慢。

什么是优化器？

优化器如Adam/SGD，使用梯度更新参数，添加动量或自适应学习率加速收敛。

什么是批次大小？

批次大小是每次梯度计算的数据样本数，影响训练稳定性和内存使用。

什么是嵌入？

嵌入是将离散数据如词或氨基酸映射到连续向量空间的低维表示，提高模型效率。

什么是注意力机制？

注意力机制计算序列元素间权重，动态聚焦相关部分，如Transformer中的QKV计算。

什么是Softmax？

Softmax将向量转为概率分布，sum=1，用于多类分类输出。

什么是Sigmoid？

Sigmoid是激活函数σ(x)=1/(1+e^{-x})，输出0-1，用于二分类或门控。

什么是交叉熵？

交叉熵测量两个概率分布差异，用于分类损失，鼓励预测接近真实标签。

什么是MSE？

MSE是均方误差，计算预测与真实连续值平方差平均，用于回归任务。

以下按「从输入到输出」的真实流程顺序，给你面试必考、前面没提过的概念（每条1-2句秒答）：

什么是输入编码（Input Encoding）？

将原始数据（如序列、图像）转为张量，如one-hot、token embedding或图像像素归一化。

什么是Padding与Mask？

长度不一的序列补0（padding），用mask告诉模型哪些位置是假的，避免参与计算。

什么是Token Embedding？

将离散ID映射到稠密向量，可学习或用预训练（如ProtBERT、ESM）。

什么是位置编码（Positional Encoding）？

给每个位置加固定或可学习的向量，让模型感知顺序（如Transformer正弦编码）。

什么是Layer Normalization？

对每一层的特征在通道维度做归一化，比BatchNorm对变长序列更稳定。

什么是残差连接（Residual Connection）？

输出 = 输入 + 子层输出，解决深层网络退化与梯度消失。

什么是Feed-Forward Network（FFN）？

Transformer每层注意力后的两层全连接（Linear→ReLU→Linear），逐位置变换特征。

什么是Dropout？

训练时随机置零部分神经元，防止过拟合。

什么是全局池化（Global Pooling）？

把变长特征图压成固定向量，如GlobalAveragePooling或GlobalMaxPooling。

什么是Flatten？

将多维特征展平成一维向量，喂入最终全连接层（易过拟合）。

什么是输出头（Head）？

任务专用最后一层，分类用Dense+Softmax，回归用Dense(1)无激活。

什么是标签平滑（Label Smoothing）？

把one-hot标签从[1,0,0]改为[0.9,0.05,0.05]，防止模型过度自信。

什么是混合精度训练（Mixed Precision）？

用FP16计算、FP32存储权重，加速训练并减少显存。

什么是梯度累积（Gradient Accumulation）？

显存不足时，分多步累加小batch梯度，再一次更新，模拟大batch。

什么是推理时去Dropout/BN？

推理时关闭Dropout，使用BN的运行均值/方差，保证确定性输出。

背完这20条，从输入到输出全链路无死角，面试再也不怕被问细节。