自然语言处理

TopDawn2026-04-01 14:20

自然语言处理NLP，目标就是让计算机理解人类的语言。

循环神经网络

如何让计算机理解人类语言呢？历史演进

1.基于同义词词典的方法

具有相同或类似含义的单词，可以归到同一个类别中，而根据单词"整体-部分"或者"上位-下位"关系，可以构建出层级的树状图。这样，就可以构成一个庞大的"单词网络"，用它就可以教会计算机单词之间的关系，从而计算出单词的"相似度"。

2.基于计数的方法

大量的文本数据，构成了语料库。我们的目的，就是从语料库中，自动且高效的提取出语言的本质，最简单的做法，就是统计词频。

分词：对文本内容进行切分，找出一个个基本单元

词关联ID：给单词标上一个ID，构建单词和ID的关联字典（称为"词表"）

词向量化：用于一个固定长度的向量来表示单词，也称为词的"分布式表示"

对每一个词，可以统计它周围出现了什么单词，出现了多少次，把这些词频统计出来，就构成了一个向量，