机器学习面试核心概念速览

什么是简单的CNN分类模型?

CNN分类模型使用卷积层提取特征、池化层降维、全连接层输出类别概率,通过Softmax激活实现多类分类。

什么是简单的CNN回归模型?

CNN回归模型类似分类,但输出层为线性Dense(1),用MSE损失预测连续值,如图像回归任务。

什么是CNN中的卷积?

卷积是滑动滤波器提取局部特征,实现参数共享和平移不变性。

什么是CNN中的池化?

池化如MaxPooling下采样特征图,增大感受野并减少计算量。

什么是CNN中的激活函数?

激活如ReLU引入非线性,帮助模型学习复杂模式。

什么是简单的LSTM分类模型?

LSTM分类模型处理序列数据,用门机制捕捉长依赖,输出层Softmax分类序列标签。

什么是简单的LSTM回归模型?

LSTM回归模型类似分类,但输出连续值,用MSE损失预测如时间序列值。

什么是LSTM中的遗忘门?

遗忘门决定哪些旧信息丢弃,通过sigmoid控制细胞状态更新。

什么是LSTM中的输入门?

输入门选择新信息加入细胞状态,结合tanh生成候选值。

什么是LSTM中的输出门?

输出门基于细胞状态产生隐藏输出,通过sigmoid过滤。

什么是简单的Transformer分类模型?

Transformer分类模型用自注意力处理序列,编码器-解码器结构,输出层Softmax分类。

什么是简单的Transformer回归模型?

Transformer回归模型类似分类,但输出线性层预测连续值,用MSE损失。

什么是Transformer中的自注意力?

自注意力计算序列元素间相关性,通过QKV矩阵加权聚合上下文。

什么是Transformer中的位置编码?

位置编码添加位置信息到嵌入,帮助模型捕捉序列顺序。

什么是Transformer中的多头注意力?

多头注意力并行多个注意力头,捕捉不同子空间关系,提升表示能力。

什么是机器学习模型?

机器学习模型是从数据中学习参数的函数,用于预测或分类新数据,如线性回归或神经网络。

什么是梯度?

梯度是损失函数对模型参数的偏导数向量,指示损失上升最快的方向,用于参数更新。

什么是梯度下降?

梯度下降通过沿负梯度方向迭代更新参数,最小化损失函数,如w ← w - η∇L。

什么是损失函数?

损失函数量化模型预测与真实值差异,如MSE用于回归,交叉熵用于分类。

什么是过拟合?

过拟合是模型在训练数据上表现好但泛化差,因捕捉噪声而非模式。

什么是欠拟合?

欠拟合是模型太简单,无法捕捉数据模式,在训练和测试上都表现差。

什么是反向传播?

反向传播用链式法则计算梯度,从输出层向输入层传播误差,高效训练深层网络。

什么是学习率?

学习率是梯度下降步长η,控制参数更新幅度,太大不收敛,太小太慢。

什么是优化器?

优化器如Adam/SGD,使用梯度更新参数,添加动量或自适应学习率加速收敛。

什么是批次大小?

批次大小是每次梯度计算的数据样本数,影响训练稳定性和内存使用。

什么是嵌入?

嵌入是将离散数据如词或氨基酸映射到连续向量空间的低维表示,提高模型效率。

什么是注意力机制?

注意力机制计算序列元素间权重,动态聚焦相关部分,如Transformer中的QKV计算。

什么是Softmax?

Softmax将向量转为概率分布,sum=1,用于多类分类输出。

什么是Sigmoid?

Sigmoid是激活函数σ(x)=1/(1+e^{-x}),输出0-1,用于二分类或门控。

什么是交叉熵?

交叉熵测量两个概率分布差异,用于分类损失,鼓励预测接近真实标签。

什么是MSE?

MSE是均方误差,计算预测与真实连续值平方差平均,用于回归任务。

以下按「从输入到输出」的真实流程顺序,给你面试必考、前面没提过的概念(每条1-2句秒答):

什么是输入编码(Input Encoding)?

将原始数据(如序列、图像)转为张量,如one-hot、token embedding或图像像素归一化。

什么是Padding与Mask?

长度不一的序列补0(padding),用mask告诉模型哪些位置是假的,避免参与计算。

什么是Token Embedding?

将离散ID映射到稠密向量,可学习或用预训练(如ProtBERT、ESM)。

什么是位置编码(Positional Encoding)?

给每个位置加固定或可学习的向量,让模型感知顺序(如Transformer正弦编码)。

什么是Layer Normalization?

对每一层的特征在通道维度做归一化,比BatchNorm对变长序列更稳定。

什么是残差连接(Residual Connection)?

输出 = 输入 + 子层输出,解决深层网络退化与梯度消失。

什么是Feed-Forward Network(FFN)?

Transformer每层注意力后的两层全连接(Linear→ReLU→Linear),逐位置变换特征。

什么是Dropout?

训练时随机置零部分神经元,防止过拟合。

什么是全局池化(Global Pooling)?

把变长特征图压成固定向量,如GlobalAveragePooling或GlobalMaxPooling。

什么是Flatten?

将多维特征展平成一维向量,喂入最终全连接层(易过拟合)。

什么是输出头(Head)?

任务专用最后一层,分类用Dense+Softmax,回归用Dense(1)无激活。

什么是标签平滑(Label Smoothing)?

把one-hot标签从[1,0,0]改为[0.9,0.05,0.05],防止模型过度自信。

什么是混合精度训练(Mixed Precision)?

用FP16计算、FP32存储权重,加速训练并减少显存。

什么是梯度累积(Gradient Accumulation)?

显存不足时,分多步累加小batch梯度,再一次更新,模拟大batch。

什么是推理时去Dropout/BN?

推理时关闭Dropout,使用BN的运行均值/方差,保证确定性输出。

背完这20条,从输入到输出全链路无死角,面试再也不怕被问细节。

相关推荐
北京耐用通信2 小时前
协议翻译大师:耐达讯自动化EtherCAT转Devicenet,电动缸的‘毫秒级指令执行专家’
人工智能·物联网·网络协议·自动化·信息与通信
爱看科技2 小时前
苹果以Apple Glasses入局AI穿戴赛道,微美全息多维发力AR眼镜加速市场博弈
人工智能·ar
song5012 小时前
鸿蒙 Flutter 插件测试:多版本兼容性自动化测试
人工智能·分布式·flutter·华为·开源鸿蒙
AI视觉网奇2 小时前
live2d 抠人脸
人工智能·opencv·计算机视觉
沫儿笙2 小时前
KUKA库卡焊接机器人tag焊接节气
人工智能·机器人
jkyy20142 小时前
智能科技如何重塑慢病饮食管理?饮食红绿灯给出新答案
人工智能·科技·健康医疗
韩曙亮2 小时前
【自动驾驶】Autoware 架构 ① ( 自动驾驶的两种核心技术架构 | 基于规则技术架构 | 端到端技术架构 )
人工智能·自动驾驶·e2e·autoware·端到端·基于规则技术架构·端到端技术架构
_codemonster2 小时前
AI大模型入门到实战系列(六)文本分类
人工智能·分类·数据挖掘
唯道行2 小时前
计算机图形学·25 消隐2 区域子分算法-光线投射算法
人工智能·算法·计算机视觉·计算机图形学·opengl