机器学习面试核心概念速览

什么是简单的CNN分类模型?

CNN分类模型使用卷积层提取特征、池化层降维、全连接层输出类别概率,通过Softmax激活实现多类分类。

什么是简单的CNN回归模型?

CNN回归模型类似分类,但输出层为线性Dense(1),用MSE损失预测连续值,如图像回归任务。

什么是CNN中的卷积?

卷积是滑动滤波器提取局部特征,实现参数共享和平移不变性。

什么是CNN中的池化?

池化如MaxPooling下采样特征图,增大感受野并减少计算量。

什么是CNN中的激活函数?

激活如ReLU引入非线性,帮助模型学习复杂模式。

什么是简单的LSTM分类模型?

LSTM分类模型处理序列数据,用门机制捕捉长依赖,输出层Softmax分类序列标签。

什么是简单的LSTM回归模型?

LSTM回归模型类似分类,但输出连续值,用MSE损失预测如时间序列值。

什么是LSTM中的遗忘门?

遗忘门决定哪些旧信息丢弃,通过sigmoid控制细胞状态更新。

什么是LSTM中的输入门?

输入门选择新信息加入细胞状态,结合tanh生成候选值。

什么是LSTM中的输出门?

输出门基于细胞状态产生隐藏输出,通过sigmoid过滤。

什么是简单的Transformer分类模型?

Transformer分类模型用自注意力处理序列,编码器-解码器结构,输出层Softmax分类。

什么是简单的Transformer回归模型?

Transformer回归模型类似分类,但输出线性层预测连续值,用MSE损失。

什么是Transformer中的自注意力?

自注意力计算序列元素间相关性,通过QKV矩阵加权聚合上下文。

什么是Transformer中的位置编码?

位置编码添加位置信息到嵌入,帮助模型捕捉序列顺序。

什么是Transformer中的多头注意力?

多头注意力并行多个注意力头,捕捉不同子空间关系,提升表示能力。

什么是机器学习模型?

机器学习模型是从数据中学习参数的函数,用于预测或分类新数据,如线性回归或神经网络。

什么是梯度?

梯度是损失函数对模型参数的偏导数向量,指示损失上升最快的方向,用于参数更新。

什么是梯度下降?

梯度下降通过沿负梯度方向迭代更新参数,最小化损失函数,如w ← w - η∇L。

什么是损失函数?

损失函数量化模型预测与真实值差异,如MSE用于回归,交叉熵用于分类。

什么是过拟合?

过拟合是模型在训练数据上表现好但泛化差,因捕捉噪声而非模式。

什么是欠拟合?

欠拟合是模型太简单,无法捕捉数据模式,在训练和测试上都表现差。

什么是反向传播?

反向传播用链式法则计算梯度,从输出层向输入层传播误差,高效训练深层网络。

什么是学习率?

学习率是梯度下降步长η,控制参数更新幅度,太大不收敛,太小太慢。

什么是优化器?

优化器如Adam/SGD,使用梯度更新参数,添加动量或自适应学习率加速收敛。

什么是批次大小?

批次大小是每次梯度计算的数据样本数,影响训练稳定性和内存使用。

什么是嵌入?

嵌入是将离散数据如词或氨基酸映射到连续向量空间的低维表示,提高模型效率。

什么是注意力机制?

注意力机制计算序列元素间权重,动态聚焦相关部分,如Transformer中的QKV计算。

什么是Softmax?

Softmax将向量转为概率分布,sum=1,用于多类分类输出。

什么是Sigmoid?

Sigmoid是激活函数σ(x)=1/(1+e^{-x}),输出0-1,用于二分类或门控。

什么是交叉熵?

交叉熵测量两个概率分布差异,用于分类损失,鼓励预测接近真实标签。

什么是MSE?

MSE是均方误差,计算预测与真实连续值平方差平均,用于回归任务。

以下按「从输入到输出」的真实流程顺序,给你面试必考、前面没提过的概念(每条1-2句秒答):

什么是输入编码(Input Encoding)?

将原始数据(如序列、图像)转为张量,如one-hot、token embedding或图像像素归一化。

什么是Padding与Mask?

长度不一的序列补0(padding),用mask告诉模型哪些位置是假的,避免参与计算。

什么是Token Embedding?

将离散ID映射到稠密向量,可学习或用预训练(如ProtBERT、ESM)。

什么是位置编码(Positional Encoding)?

给每个位置加固定或可学习的向量,让模型感知顺序(如Transformer正弦编码)。

什么是Layer Normalization?

对每一层的特征在通道维度做归一化,比BatchNorm对变长序列更稳定。

什么是残差连接(Residual Connection)?

输出 = 输入 + 子层输出,解决深层网络退化与梯度消失。

什么是Feed-Forward Network(FFN)?

Transformer每层注意力后的两层全连接(Linear→ReLU→Linear),逐位置变换特征。

什么是Dropout?

训练时随机置零部分神经元,防止过拟合。

什么是全局池化(Global Pooling)?

把变长特征图压成固定向量,如GlobalAveragePooling或GlobalMaxPooling。

什么是Flatten?

将多维特征展平成一维向量,喂入最终全连接层(易过拟合)。

什么是输出头(Head)?

任务专用最后一层,分类用Dense+Softmax,回归用Dense(1)无激活。

什么是标签平滑(Label Smoothing)?

把one-hot标签从[1,0,0]改为[0.9,0.05,0.05],防止模型过度自信。

什么是混合精度训练(Mixed Precision)?

用FP16计算、FP32存储权重,加速训练并减少显存。

什么是梯度累积(Gradient Accumulation)?

显存不足时,分多步累加小batch梯度,再一次更新,模拟大batch。

什么是推理时去Dropout/BN?

推理时关闭Dropout,使用BN的运行均值/方差,保证确定性输出。

背完这20条,从输入到输出全链路无死角,面试再也不怕被问细节。

相关推荐
偶信科技9 小时前
ADCP钛合金材质如何提升设备的耐用性?偶信科技 3.5kg钛合金ADCP成为新宠儿
人工智能·科技·材质·偶信科技·ocean·海洋仪器·adcp
视界先声9 小时前
中商旅游一卡通——打造国内惠民旅游领先平台
大数据·人工智能
小咖自动剪辑9 小时前
小咖批量剪辑助手:视频批量自动剪辑与混剪处理软件(Windows)
人工智能·实时互动·音视频·语音识别·视频编解码
hkNaruto9 小时前
【AI】AI学习笔记:MCP 核心三角色指南:基于 OpenAI 的架构解析
人工智能·笔记·学习
四川极客创想科技9 小时前
智慧旅游平台项目概要与核心功能全景解析
人工智能·数据分析·团队开发·旅游·风景
reesn9 小时前
模型转ONNX流程指南
人工智能·语言模型
是Dream呀9 小时前
从课程入坑到玩转昇腾:昇腾 310 系列平台下 Qwen2.5-7B 大模型训练实践
人工智能·鲲鹏·昇腾
杜子不疼.9 小时前
NSP 新范式实战:AI 世界模型构建与物理规律建模指南
人工智能
AI架构师易筋9 小时前
多模态 LLM 与本地多模态检索 PoC:从原理到工程落地(图片 / 视频关键帧 / LaTeX 公式)
人工智能·llm·多模态·多模态llm
_OP_CHEN9 小时前
【Coze智能体开发】(二)从 0 到 1 精通 Coze 智能体开发:基础到实战全攻略,新手也能快速上手!
人工智能·大模型·大语言模型·模型优化·扣子平台·智能体开发·智能体调试