NLP--词袋模型

词袋模型如同所有单词打散放到一个袋子中,因此这种模型无法估计语义和语序问题,每个单词都是独立的。

1.文本分词:调用jieba库,使用精确模式对每个句子进行分词,并存入列表。

2.去除停用词:遍历停用词文件的每一行,删除字符串头和尾的空白字符(包括\n,\r,\t等),加到停用词集合里。然后遍历分词后列表的每一行,再遍历每一行的每一个单词,如果该单词不在停用词集合里,就把该单词放入新的行列表中,最后将所有行列表存入文本列表中。

3.建立文本词典:去除停用词,建立总词典,使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型:for语句建立词袋模型,只包含0和1。

5.词袋模型局限性:维度灾难,向量中大量元素为0,没有考虑词与词之间的顺序和结构信息,存在语义鸿沟的问题。

相关推荐
贺函不是涵14 分钟前
【沉浸式求职学习day47】【JSP详解】
java·开发语言·学习
hmbbcsm21 分钟前
reserve学习笔记(花指令)
笔记·学习
Christo31 小时前
LNCS-2009《Adaptive Sampling for $k$-Means Clustering》
人工智能·算法·机器学习·kmeans
阿图灵1 小时前
文章记单词 | 第102篇(六级)
学习·学习方法
AI.NET 极客圈1 小时前
AI与.NET技术实操系列(八):使用Catalyst进行自然语言处理
人工智能·自然语言处理·.net
正在走向自律2 小时前
探索Dify:开启大语言模型应用开发新时代
人工智能·语言模型·自然语言处理·llm·didy
疯狂学习GIS2 小时前
部署可使用GPU的tensorflow库
python·深度学习·机器学习
MARS_AI_2 小时前
云蝠语音智能体——电话面试中的智能助手
人工智能·自然语言处理·面试·职场和发展·交互·信息与通信
一年春又来2 小时前
AI-02a5a8.神经网络-与学习相关的技巧-超参数的验证
人工智能·神经网络·学习
仙袂拂月2 小时前
C# Windows Forms应用程序-001
程序人生·c#·个人开发·学习方法·visual studio