保研面试问题总结

文章目录

简历面
- 1、transformer
- 2、机器学习
数学面
408
英语

简历面

1、transformer

（1）transformer，Q V K权重矩阵，为什么不选择相同的权重矩阵点乘呢？

（2）Transformer为何使用多头注意力机制?(为什么不使用一个头)

（3）Transformer计算attention的时候为何选择点乘而不是加法?两者计算复杂度和效果上有什么区别?

（4）为什么在进行 softmax之前需要对 attention进行 scaled(为什么除以 d k \sqrt{d_k} dk )，并使用公式推导进行讲解

（5）在计算 attention score 的时候如何对 padding 做mask 操作?

（6）为什么在进行多头注意力的时候需要对每个 head 进行降维?(可以参考上面一个问题)

（7）大概讲一下 Transformer 的 Encoder 模块

（8）.为何在获取输入词向量之后需要对矩阵乘以embedding size 的开方?意义是什么?

（9）简单介绍-下 Transformer 的位置编码?有什么意义和优缺点?

（10）你还了解哪些关于位置编码的技术，各自的优缺点是什么?

（11）简单讲一下 Transformer 中的残差结构以及意义

（12）简单描述-下 Transformer 中的前馈神经网络?

使用了什么激活函数?相关优缺点?

（13）Encoder 端和 Decoder 端是如何进行交互的?(在这里可以问一下关于 seq2seq 的 attention 知识)

（14）Decoder 阶段的多头自注意力和 encoder 的多头自注意力有什么区别?(为什么需要 decoder 自注意力需要进行 sequence mask)

（15）Transformer的并行化提现在哪个地方?

Decoder 端可以做并行化吗?

（16）Transformer 训练的时候学习率是如何设定的?Dropout是如何设定的，位置在哪里?Dropout 在测试的需要有什么需要注意的吗?

（17）引申一个关于 bert 问题，bert 的 mask 为何不学习 transformer 在 attention 处进行屏蔽 score 的技巧?

2、机器学习

（1）讲述一下XGB和LGB的区别

决策树生长策略不同：
- XGB采用按层生长策略，逐层扩展树的所有叶子。
- LightGBM采用叶子优先策略，优先分裂增益最大的叶子。
处理的数据规模：
- XGB适合大多数情况，特别是当数据集大小适中或小规模时。大数据集需要消耗内存更大比LGB慢
- LGB特别适合处理大规模数据，通过直方图方法减少内存使用。
特征处理：
- XGB需要对类别特征进行预处理（如独热编码）。
- LGB可以直接处理类别特征，无需额外转换。无需独热编码。

（2）神经网络和机器学习模型分别更擅长什么

数据量：
- 大量数据：神经网络通常表现更好。
- 少量数据：传统机器学习模型通常表现更好。
数据类型：
- 图像、语音、文本：神经网络（特别是CNNs和RNNs）表现优异。
- 结构化数据：传统机器学习模型通常表现更好。

（3）xgboost对比于boosting的区别

XGB是一种基于决策树的Boosting集成学习技术。

XGBoost 损失函数中引入了正则化项，有助于控制模型的复杂度并防止过拟合。
XGBoost 使用了更为复杂的目标函数（损失函数），其中包括了二阶导数信息（利用损失函数的一阶导数和二阶导数来优化模型）
XGBoost 默认使用按层生长策略
XGBoost 提供了高度优化的计算速度，支持并行处理和分布式计算。
XGBoost 可以自动处理缺失值，不需要额外的数据预处理。

（4）LightGBM对比于boosting的区别

LGB是一种基于决策树的Boosting集成学习技术。

LightGBM 使用基于直方图的算法来减少内存使用量并提高计算速度
LightGBM 采用叶子优先的策略生长树
LightGBM 特别优化了对大规模数据集的处理能力
LightGBM 支持高效的计算并行化和分布式计算
与XGB类似，LGB引入了正则化，也使用了二阶导数，可以自动处理缺失值。

（5）xgboost是怎么回事

XGB是一种基于决策树的Boosting集成学习技术。

在每次迭代中，添加一个新的决策树，专注于修正前一轮留下的残差，实际上就是调整数据权重。
在损失函数中引入正则项，并使用损失函数的一阶导和二阶导优化模型。
是一种梯度提升算法
决策树按层增长

（6）LightGBM是怎么回事

LGB是一种基于决策树的Boosting集成学习技术。

在每次迭代中，添加一个新的决策树，专注于修正前一轮留下的残差，实际上就是调整数据权重。
在损失函数中引入正则项，并使用损失函数的一阶导和二阶导优化模型。
是一种梯度提升算法
决策树叶子优先增长，按最大增益值优先分裂叶子节点

（7）随机森林和决策树有什么关系
随机森林由多棵决策树组成的集成模型。随机森林训练一颗决策树和普通决策树不同，随机森林在决策树分裂结点时是随机选取特征子空间的，每颗决策树的数据集也是通过自助采样获得的。

（8）监督学习和非监督学习的常见方法

监督学习
- 分类
  - KNN（K-邻近算法，注意不是神经网络）
  - 逻辑回归
  - SVM
  - 决策树
  - 随机森林
- 回归
  - 线性回归
  - 岭回归
- 集成学习
  - 梯度提升
非监督学习
- 聚类
  - K-means
- 降维
  - 主成分分析

（9）解释一下激活函数的作用：
引入非线性因素

数学面

（1）求矩阵的秩

求矩阵的秩有几种不同的方法，以下是常用的几种：

行简化法：
- 将矩阵通过行变换化为简化行阶梯形矩阵（Row Echelon Form, REF），矩阵中非零行的数量就是矩阵的秩。
列简化法：
- 将矩阵通过列变换化为简化列阶梯形矩阵（Column Echelon Form, CEF），矩阵中非零列的数量就是矩阵的秩。
计算行列式法：
- 对于方阵，可以通过计算所有子矩阵的行列式，找到最大的非零子矩阵的阶数，即为矩阵的秩。
奇异值分解法：
- 通过奇异值分解（SVD），矩阵的非零奇异值的数量就是矩阵的秩。

（2）大数定律

大数定律（Law of Large Numbers, LLN）描述了当样本数量增大时，样本平均值趋近于总体均值的情况。

弱大数定律：
- 如果 X 1 , X 2 , ... , X n X_1, X_2, \ldots, X_n X1,X2,...,Xn 是一组独立同分布的随机变量，具有期望值 E ( X i ) = μ E(X_i) = \mu E(Xi)=μ，那么样本均值 X ‾ = 1 n ∑ i = 1 n X i \overline{X} = \frac{1}{n}\sum_{i=1}^n X_i X=n1∑i=1nXi 当 n → ∞ n \to \infty n→∞ 时，几乎必然趋近于 μ \mu μ。
强大数定律：
- 类似弱大数定律，但要求几乎确定收敛，即对于几乎所有的样本路径，样本均值 X ‾ \overline{X} X 趋近于 μ \mu μ。

（3）中心极限定理

中心极限定理（Central Limit Theorem, CLT）描述了独立同分布的随机变量的和在标准化之后趋近于标准正态分布的情况。

标准形式 ：
- 设 X 1 , X 2 , ... , X n X_1, X_2, \ldots, X_n X1,X2,...,Xn 是独立同分布的随机变量，期望值为 μ \mu μ，方差为 σ 2 \sigma^2 σ2。则当 n → ∞ n \to \infty n→∞ 时，标准化的和 ∑ i = 1 n X i − n μ n σ \frac{\sum_{i=1}^n X_i - n\mu}{\sqrt{n}\sigma} n σ∑i=1nXi−nμ 趋近于标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1)。

（4）半正定矩阵

半正定矩阵（Positive Semi-Definite Matrix, PSD）是指所有特征值均非负的对称矩阵。

定义：
- 一个对称矩阵 A A A 称为半正定矩阵，如果对于所有非零向量 x x x，都有 x T A x ≥ 0 x^T A x \geq 0 xTAx≥0。
特征值特点：
- 半正定矩阵的所有特征值均为非负数。

（5）贝叶斯估计和最大似然估计的区别和联系

最大似然估计（Maximum Likelihood Estimation, MLE）

定义：
- 给定观测数据，选择参数使得观测数据出现的概率（似然函数）最大化。
- 形式化： θ ^ MLE = arg ⁡ max ⁡ θ L ( θ ∣ x ) \hat{\theta}{\text{MLE}} = \arg\max{\theta} L(\theta | x) θ^MLE=argmaxθL(θ∣x)，其中 L ( θ ∣ x ) L(\theta | x) L(θ∣x)是似然函数。
特点：
- 不考虑参数的先验分布，仅基于数据进行估计。

贝叶斯估计（Bayesian Estimation）

定义：
- 结合先验分布和观测数据，更新参数的后验分布，并根据后验分布进行参数估计。
- 形式化： θ ^ Bayes = arg ⁡ max ⁡ θ p ( θ ∣ x ) \hat{\theta}{\text{Bayes}} = \arg\max{\theta} p(\theta | x) θ^Bayes=argmaxθp(θ∣x)，其中 p ( θ ∣ x ) p(\theta | x) p(θ∣x) 是后验分布。
特点：
- 考虑参数的先验分布，通过贝叶斯公式 p ( θ ∣ x ) ∝ p ( x ∣ θ ) p ( θ ) p(\theta | x) \propto p(x | \theta) p(\theta) p(θ∣x)∝p(x∣θ)p(θ) 更新后验分布。
联系：
- 都是统计估计方法，用于估计模型参数。
- 在无信息先验（均匀先验）的情况下，贝叶斯估计与最大似然估计一致。
区别：
- MLE 只使用观测数据进行估计，不考虑先验信息。
- 贝叶斯估计结合先验分布和观测数据，通过贝叶斯定理更新参数分布，适用于可以提供先验信息的场景。

总结来说，最大似然估计和贝叶斯估计是两种不同的参数估计方法。前者基于观测数据的似然函数，后者结合先验知识和观测数据进行估计。在实际应用中，选择哪种方法取决于是否有先验信息以及问题的具体要求。

408

数据结构

你学过算法吗？能不能说一下你觉得最精妙的。并讲一下时间复杂度

冒泡排序是否是稳定排序

拷打快排，时间复杂度如何计算，假设pivot分割为 1 4 \frac{1}{4} 41和 3 4 \frac{3}{4} 43怎么计算复杂度

介绍网络流

哈希冲突怎么解决

求两个字符串，最长公共子序列怎么求序列，时间复杂度是多少（LCS）

操作系统

在内存管理中，为了减少碎片化，运用了那些技术？

进程和线程的区别

计网

dns相关

从输入链接点击到加载页面的过程中计算机网络方面的流程是什么

计网 NAT相关

什么叫http无状态，为什么要无状态，怎么让它有状态

计算机组成原理

虚拟内存

cache，多级存储

英语

transformer:

state of the art：最先进的
dispense with：摒弃了
transduction problem：转导问题
language modeling：语言建模
push the boundaries of ：推动···的发展边界（寻求突破）
typically：通常
along：沿着/按照
*

Recurrent models typically factor computation along the symbol positions of the input and output

sequences
preclude：阻止
align sth to sth：将···与···对齐