nlp面试重点

深度学习基本原理:梯度下降公式,将损失函数越来越小,最终预测值和实际值误差比较小。

交叉熵:-p(x)logq(x),p(x)是one-hot形式。如果不使用softmax计算交叉熵,是不行的。损失函数可能会非常大,或者预测的概率是[-0.1,0.3,0.5],log不接收负值。pytorch默认给你加softmax。

如果softmax改成sigmoid也不行,如sigmoid过完以后,[0.9,0.99,0.99],计算以后0.99的影响会被忽略,得到的结果是不正确。

adam和sgd区别:adam会考虑之前的计算,自动调节学习率,在通过梯度平方控制学习率的调节,让训练可以比较平稳又可以加速。

transformer和rnn区别:长距离依赖问题,rnn越远影响越弱。

调参经验:batch_size,max_length,学习率增大batch_size应该怎么调整,加数据量,打乱数据顺序。

训练词向量:将one-hot乘以一个矩阵进行训练,cbow,skip-gram,共现矩阵,keans聚类。

语言模型:PPL评价语言模型,不能成句也可能PPL比较低,所以PPL评价不太好。

传统方法和预训练方法:

Transformer里的dk是hidden_size/ head_num,是实验结果。

数据稀疏问题:标注更多数据,大模型生成更多数据,换模型,调整阈值,召回率换准确率。重新定义类别,减少类别,增加规则弥补。

文本匹配:表示型,直接计算,交互型,速度慢,更准确。文本向量化:文本和句子分别过一个模型,优化模型,使文本和句子相似,如果是句子和句子可以用相同模型,最后得到的参数作为向量数据库。表示型:一个句子直接向量化,交互型:必须进入两个句子算得分。

向量数据库查找:KD树。

序列标注:crf会用维特比解码,bean search在大模型里使用,n * D *B,复杂度小很多

ner:加标点任务。

序列标注重复:多个模型,生成式任务,输出两个标记。

自回归语言模型:下三角mask,预测下一个词。

teacher-forcing,使用真实标签预测,提高效率。

采样策略:topk,topp,bean-size,temperature(大模型)。

bert变体:albert减少参数,roberta(动态mask,去掉nsp任务)

stf用于大模型问答,相当于encoder-decoder,bert是encoder,通过mask可以实现decoder自回归语言模型(文本生成)。

旋转位置编码:解决词嵌入位置编码长度外推性,找到映射f,满足

< f_q(x_m,m), f_k(x_n,n)> = g(x_m, x_n, m - n)。初始条件m = 0, f(q,0) = q。

https://zhuanlan.zhihu.com/p/580739696

qm(1),qm(2)是原来的Wq和xm相乘的局部结果,即xm.dot(Wq)

余弦值位置编码中:固定i,则pos的改变会使位置编码有周期性,固定pos修改i,则一开始周期较小,容易捕捉相邻字的差别,随着i变大,周期越来越长

moe专家模型(一个MLP层就是一个专家),deepseek使用共享专家。deepseek在qkv计算的过程中,q和k拆成两部分,其中一部分注入rope位置信息,另一部分不处理。减少运算量。

bbpe:解决多语种,不用统计词,既不是中文词表也不是英文词表,具有跨语种的优点。bpe是基于字符,bbpe是转化为unicode编码,然后合并,是基于字节的。

知识图谱:方法一是基于模板+文本匹配,类似于faq库问答,相似度可以用bm25,jaccard距离,或者余弦距离。方法二:拆解成多个分类或抽取问题处理。方法三:利用大语言LLM的生成能力

推荐系统:基于相似用户、相似物品的推荐。

相关推荐
亚里随笔3 小时前
Nemotron-Research-Tool-N1 如何提升大语言模型工具使用能力?
人工智能·语言模型·自然语言处理
东临碣石827 小时前
【AI论文】DeepCritic:使用大型语言模型进行有意识的批判
人工智能·语言模型·自然语言处理
Frankabcdefgh18 小时前
颠覆者DeepSeek:从技术解析到实战指南——开源大模型如何重塑AI生态
人工智能·科技·深度学习·自然语言处理·职场和发展
王哥儿聊AI20 小时前
GenCLS++:通过联合优化SFT和RL,提升生成式大模型的分类效果
大数据·人工智能·深度学习·算法·机器学习·自然语言处理
CQU_JIAKE1 天前
4.29[Q]NLP-Exp2
人工智能·自然语言处理
AI大模型顾潇1 天前
[特殊字符] 人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总) [特殊字符]
数据库·人工智能·语言模型·自然语言处理·大模型·llm·prompt
Blossom.1182 天前
人工智能助力工业制造:迈向智能制造的未来
网络·人工智能·深度学习·神经网络·机器学习·自然语言处理·制造
mslion2 天前
双剑合璧:融合视觉基础与语言模型,勇闯未知领域的语义分割新框架
人工智能·语言模型·自然语言处理·transformer
小oo呆2 天前
【自然语言处理与大模型】使用Xtuner进行模型合并与导出
人工智能·自然语言处理
cxr8283 天前
AI大语言模型破译“未知未知”的密钥:开源情报、被动收入与智能体协作的深层机理与实践
人工智能·语言模型·自然语言处理