100 个 NLP 面试问题
一、 说明
对于技术磨练中,其中一项很酷的技能培训是提问。不知道答案并没有多大的错;错就错在不谷歌这些疑问。本篇就是在面试之前,您将此文档复制给自己,做一个系统的模拟实战。
二、经典NLP问题(共8题)
TF-IDF 和 ML ;
-
从头开始编写 TF-IDF。
-
什么是TF-IDF中的归一化?
-
为什么在我们这个时代需要了解TF-IDF,如何在复杂的模型中使用它?
-
解释朴素贝叶斯的工作原理。你可以用它来做什么?
-
SVM 如何容易出现过拟合?
-
解释文本预处理的可能方法(词形还原和词干提取)。您知道哪些算法,在什么情况下会使用它们?
-
你知道哪些文本相似度指标?
-
解释余弦相似度和余弦距离的区别。以下哪个值可以是负数?你会如何使用它们?
三、计量指标 (7题)
-
用简单的语言解释精确度和回忆力,如果没有 F1 分数,你会看什么?
-
在什么情况下,你会观察到特异性的变化?
-
你什么时候会看宏观指标,什么时候看微观指标?为什么存在加权指标?
-
什么是困惑?我们可以用什么来考虑它?
-
什么是 BLEU 指标?
-
解释不同类型的ROUGE指标之间的区别?
-
BLUE和ROUGE有什么区别?
四、WORD2VEC(9题)
-
解释Word2Vec是如何学习的?什么是损失函数?什么是最大化?
-
您知道哪些获取嵌入的方法?什么时候会更好?
-
静态嵌入和上下文嵌入有什么区别?
-
你知道的两种主要架构是什么,哪一种学得更快?
-
Glove、ELMO、FastText 和 Word2Vec 有什么区别?
-
什么是负抽样,为什么需要负抽样?您还知道 Word2Vec 的哪些其他技巧,以及如何应用它们?
-
什么是密集嵌入和稀疏嵌入?请举例说明。
-
为什么嵌入的维度很重要?
-
在短文本数据上训练Word2Vec时会出现什么问题,如何处理?
五、RNN 和 CNN(7题)
-
一个简单的 1 层 RNN 有多少个训练参数?
-
RNN训练是如何进行的?
-
RNN存在哪些问题?
-
您知道哪些类型的 RNN 网络?解释 GRU 和 LSTM 之间的区别?
-
我们可以在这样的网络中调整哪些参数?(堆垛,层数)
-
什么是RNN的消失梯度?你如何解决这个问题?
-
为什么要在 NLP 中使用卷积神经网络,如何使用它?你怎么能在注意力范式中比较CNN?
六、NLP 和 TRANSFORMERS
注意力和变压器架构 (15题)
32.你如何计算注意力?(补充:它被提议用于什么任务,为什么?
-
注意力的复杂性?将其与 RNN 的复杂性进行比较。
-
比较 RNN 和注意力。在什么情况下你会使用注意力,什么时候 RNN?
-
从头开始写注意力。
-
解释注意中的掩饰。
-
自注意力矩阵的维度是多少?
-
BERT和GPT在注意力计算方面有什么区别?
-
变压器中嵌入层的尺寸是多少?
-
为什么嵌入被称为上下文?它是如何工作的?
-
变压器中使用什么,层规范或批量规范,为什么?
-
为什么变压器有PreNorm和PostNorm?
-
解释软注意力和硬注意力(局部/全局)之间的区别?
-
解释多头注意力。
-
您还知道哪些其他类型的注意力机制?这些修改的目的是什么?
-
随着人头数量的增加,自我注意力如何变得更加复杂?
七、变压器型号类型 (7题)
-
为什么 BERT 在很大程度上落后于 RoBERTa ,你能从 RoBERTa 中学到什么?
-
什么是 T5 和 BART 型号?它们有何不同?
-
什么是与任务无关的模型?请举例说明。
-
通过比较 BERT、GPT 和 T5 来解释 transformer 模型。
-
BERT、GPT等在模型知识方面存在哪些主要问题?如何解决这个问题?
-
类似解码器的 GPT 在训练和推理过程中是如何工作的?有何不同?
-
解释变压器模型中头部和层之间的区别。
八、位置编码 (6题)
-
为什么在变压器模型的嵌入中丢失了有关位置的信息?
-
解释位置嵌入的方法及其优缺点。
-
为什么我们不能简单地添加一个带有标记索引的嵌入?
-
我们为什么不训练位置嵌入?
-
什么是相对和绝对位置编码?
-
详细解释旋转位置嵌入的工作原理。
九、预训练 (4题)
-
因果语言建模是如何工作的?
-
我们什么时候使用预训练模型?
-
如何从头开始训练变压器?解释一下你的管道,在什么情况下你会这样做?
-
除了 BERT 和 GPT 之外,您还知道哪些模型可用于各种预训练任务?
十、分词器 (9题)
-
您知道哪些类型的分词器?比较它们。
-
你能扩展一个分词器吗?如果是,在什么情况下你会这样做?你什么时候会重新训练一个分词器?添加新代币时需要做什么?
-
普通代币与特殊代币有何不同?
-
为什么变压器中不使用词形还原?为什么我们需要代币?
-
如何训练分词器?用 WordPiece 和 BPE 的例子来解释。
-
CLS向量占据什么位置?为什么?
-
BERT 中使用了什么分词器,GPT 中使用了哪个分词器?
-
解释现代分词器如何处理词汇表外的单词?
-
分词器词汇大小有什么影响?在新培训的情况下,您将如何选择它?
十一、训练 (8题)
-
什么是阶级失衡?如何识别它?说出解决此问题的所有方法。
-
在推理过程中可以使用 dropout 吗,为什么?
-
Adam 优化器和 AdamW 有什么区别?
-
消耗的资源如何随着梯度积累而变化?
-
如何优化训练期间的资源消耗?
-
你知道哪些分布式训练方法?
-
什么是文本增强?说出您知道的所有方法。
-
为什么填充物的使用频率较低?取而代之的是做什么?
-
解释热身是如何工作的。
-
解释渐变裁剪的概念?
-
教师强迫如何工作,请举例说明?
-
为什么以及如何使用跳过连接?
-
什么是适配器?我们可以在哪里以及如何使用它们?
-
解释度量学习的概念。你知道什么方法?
十二、推理 (4题)
-
softmax中的温度控制什么?你会设置什么值?
-
解释生成中的采样类型?top-k、top-p、细胞核采样?
-
波束搜索的复杂性是什么,它是如何工作的?
-
什么是句子嵌入?您可以通过哪些方式获得它?
十三、LLM (13题)
-
LoRA是如何工作的?您将如何选择参数?想象一下,我们想要微调一个大型语言模型,将 LORA 与小 R 一起应用,但该模型仍然不适合内存。还能做些什么?
-
prefix tuning , p-tuning 和 prompt tuning 和有什么不一样?
-
解释缩放定律。
-
解释LLM训练的所有阶段。我们可以从哪些阶段弃权,在什么情况下?
-
RAG是如何工作的?它与小镜头 KNN 有何不同?
-
你知道什么量化方法?我们可以微调量化模型吗?
-
如何防止 LLM 中的灾难性遗忘?
-
讲解KV缓存、分组查询注意力和多查询注意力的工作原理。
-
解释 MixTral 背后的技术,它的优缺点是什么?
-
你好吗?事情进展如何?
如果你觉得这些信息有帮助,并想以其他方式感谢我。