NLP--词袋模型

词袋模型如同所有单词打散放到一个袋子中,因此这种模型无法估计语义和语序问题,每个单词都是独立的。

1.文本分词:调用jieba库,使用精确模式对每个句子进行分词,并存入列表。

2.去除停用词:遍历停用词文件的每一行,删除字符串头和尾的空白字符(包括\n,\r,\t等),加到停用词集合里。然后遍历分词后列表的每一行,再遍历每一行的每一个单词,如果该单词不在停用词集合里,就把该单词放入新的行列表中,最后将所有行列表存入文本列表中。

3.建立文本词典:去除停用词,建立总词典,使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型:for语句建立词袋模型,只包含0和1。

5.词袋模型局限性:维度灾难,向量中大量元素为0,没有考虑词与词之间的顺序和结构信息,存在语义鸿沟的问题。

相关推荐
华清元宇宙实验中心8 分钟前
【每天学点AI】前向传播、损失函数、反向传播
深度学习·机器学习·ai人工智能
虾球xz13 分钟前
游戏引擎学习第11天
stm32·学习·游戏引擎
心怀梦想的咸鱼16 分钟前
Ue5 umg学习(三)文本控件
学习·ue5
心怀梦想的咸鱼17 分钟前
Ue5 umg学习(二)图像控件,锚点
学习·ue5
宋一诺3336 分钟前
机器学习—高级优化方法
人工智能·机器学习
龙的爹23331 小时前
论文 | The Capacity for Moral Self-Correction in LargeLanguage Models
人工智能·深度学习·机器学习·语言模型·自然语言处理·prompt
小A1591 小时前
STM32完全学习——系统时钟设置
stm32·嵌入式硬件·学习
2301_775281192 小时前
柯桥生活英语口语学习“面坨了”英语怎么表达?
学习·生活
江梦寻2 小时前
思科模拟器路由器配置实验
开发语言·网络·网络协议·学习·计算机网络
Light602 小时前
低代码牵手 AI 接口:开启智能化开发新征程
人工智能·python·深度学习·低代码·链表·线性回归