NLP--词袋模型

小柒777772024-06-10 18:07

词袋模型如同所有单词打散放到一个袋子中，因此这种模型无法估计语义和语序问题，每个单词都是独立的。

1.文本分词：调用jieba库，使用精确模式对每个句子进行分词，并存入列表。

2.去除停用词：遍历停用词文件的每一行，删除字符串头和尾的空白字符（包括\n，\r，\t等），加到停用词集合里。然后遍历分词后列表的每一行，再遍历每一行的每一个单词，如果该单词不在停用词集合里，就把该单词放入新的行列表中，最后将所有行列表存入文本列表中。

3.建立文本词典：去除停用词，建立总词典，使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型：for语句建立词袋模型，只包含0和1。

5.词袋模型局限性：维度灾难，向量中大量元素为0，没有考虑词与词之间的顺序和结构信息，存在语义鸿沟的问题。