自然语言处理基础面试

文章目录

讲道理肯定还得有Transformer,我这边先放着,以后再加吧。

TF-IDF

TF(全称TermFrequency),中文含义词频,简单理解就是关键词出现在网页当中的频次。

IDF(全称InverseDocumentFrequency),中文含义逆文档频率,简单来说就是该关键词出现在所有文档里面的一种数据集合。

TF-IDF用来评估字词对于文档集合中某一篇文档的重要程度。TF-IDF的计算公式为:

TF-IDF = 某文档中某词或字出现的次数/该文档的总字数或总词数 * log(全部文档的个数/(包含该词或字的文档的篇数)+1)

TF-IDF的思想比较简单,但是却非常实用。然而这种方法还是存在着数据稀疏的问题,也没有考虑字的前后信息。

bag-of-words

这玩意将一个文档或者句子使用一个向量来表示,

John likes to watch movies. Mary likes movies too.

那个这玩意把上面这个变成下面这个向量,当然了,我们要规定向量的第一个元素是john,值为1,表示john在这一段话中只出现了一次;第二个元素是like;倒数那几个元素是一些这段话中没有出现过的单词,所以都是0。

1, 2, 1, 1, 2, 1, 1, 0, 0, 0

Bert

​ bert的Embedding层由3个子层求和得到,分别是词向量层Token Embedings,句子层Segment Embeddings以及位置编码层Position Embeddings,特别注意的是,bert中的位置编码层是采用随机初始化训练学习得到,和transformer的正弦函数编码不同。

Token Embeddings是词向量,第一个单词是CLS标志,主要用于之后的分类任务。

Segment Embeddings用来区别两种句子,作用于两个句子为输入的分类任务。

Position Embeddings是随机初始化训练出来的结果。

​ MLM是Mask Language Model,也就是掩码语言模型。MLM有两种方式:AR和AE。

AR是自回归模型,也就是从左边不断向右边预测这样,只能利用单侧信息,典型的模型是GPT。

AE是自编码模型,也是bert的MLM采用的。通过随机遮挡住一个句子中部分词语,让模型训练进行预测,充分利用了文本的上下文信息。遮挡方式为先在原始训练文本中随机抽取15%的token作为参与MASK任务的对象,然后随机选择80%的词语为MASK,10%替换成其他词语,10%保持不变。

原始bert是静态mask,也就是每个epoch训练的内容mask部分都是一致的,这样没法学习到更多有用的信息,roberta采用的是动态mask,每个epoch训练的mask都是重新处理的,效果更好。

Next Sentence Prediction任务

给定俩个句子,用[sep]进行句子划分区别两个句子,过一层Bert以后,将cls进行liner再softmax,得到的yes或者no(句子1和句子2是否是相连接的句子),cls就是分类的意思。

有研究人员表示:next sentence prediction部分并没有什么有用的价值

BERT这两个任务是一起做的。

相关推荐
yzx9910135 分钟前
最具有实际意义价值的比赛项目
人工智能·深度学习·机器学习
cylat36 分钟前
Day38 Dataset和Dataloader类
人工智能·python·深度学习·神经网络·机器学习
yuluo_YX41 分钟前
AI Gateway 介绍
人工智能·gateway
HeartException1 小时前
Spring Boot + MyBatis Plus + SpringAI + Vue 毕设项目开发全解析(源码)
人工智能·spring boot·学习
VR最前沿1 小时前
Xsens动作捕捉技术用于研究机器人的运动控制、姿态调整以及人机交互
人工智能·机器人·人机交互
云卓SKYDROID1 小时前
无人机交互控制技术要点
人工智能·人机交互·无人机·遥控器·高科技·云卓科技
大千AI助手1 小时前
LangChain执行引擎揭秘:RunnableConfig配置全解析
人工智能·langchain·config
家庭云计算专家1 小时前
ONLYOFFICE 协作空间 企业版使用秘籍-5.企业电子文件如何管理?便于查找、访问和协作,轻松提升效率
大数据·运维·人工智能·onlyoffice·协作空间·onlyoffice开发版
mortimer2 小时前
Whisper 模型推理终极加速指南:CTranslate2 从入门到精通
人工智能·开源·github
沐尘而生2 小时前
【AI智能体】Coze 数据库从使用到实战操作详解
数据库·人工智能·ai作画·程序员创富