自然语言处理NLP,目标就是让计算机理解人类的语言。
循环神经网络
如何让计算机理解人类语言呢?历史演进
1.基于同义词词典的方法
具有相同或类似含义的单词,可以归到同一个类别中,而根据单词"整体-部分"或者"上位-下位"关系,可以构建出层级的树状图。这样,就可以构成一个庞大的"单词网络",用它就可以教会计算机单词之间的关系,从而计算出单词的"相似度"。
2.基于计数的方法
大量的文本数据,构成了语料库。我们的目的,就是从语料库中,自动且高效的提取出语言的本质,最简单的做法,就是统计词频。
分词:对文本内容进行切分,找出一个个基本单元
词关联ID:给单词标上一个ID,构建单词和ID的关联字典(称为"词表")
词向量化:用于一个固定长度的向量来表示单词,也称为词的"分布式表示"
对每一个词,可以统计它周围出现了什么单词,出现了多少次,把这些词频统计出来,就构成了一个向量,