NLP--词袋模型

词袋模型如同所有单词打散放到一个袋子中,因此这种模型无法估计语义和语序问题,每个单词都是独立的。

1.文本分词:调用jieba库,使用精确模式对每个句子进行分词,并存入列表。

2.去除停用词:遍历停用词文件的每一行,删除字符串头和尾的空白字符(包括\n,\r,\t等),加到停用词集合里。然后遍历分词后列表的每一行,再遍历每一行的每一个单词,如果该单词不在停用词集合里,就把该单词放入新的行列表中,最后将所有行列表存入文本列表中。

3.建立文本词典:去除停用词,建立总词典,使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型:for语句建立词袋模型,只包含0和1。

5.词袋模型局限性:维度灾难,向量中大量元素为0,没有考虑词与词之间的顺序和结构信息,存在语义鸿沟的问题。

相关推荐
海兰1 分钟前
【第1篇 】生成式AI的崛起:从语言模型到智能体
人工智能·语言模型·自然语言处理
red_redemption15 分钟前
自由学习记录(161)
学习
丰。。18 分钟前
3D高斯泼溅研究01
人工智能·深度学习·3d·强化学习·深度强化学习
南境十里·墨染春水20 分钟前
linux学习进展 主函数的参数
linux·运维·学习
淮北49420 分钟前
obsidian管理自己的计划
linux·学习·kanban·obsidian
南無忘码至尊24 分钟前
Unity学习90天-第1天-认识Transform + 坐标系
学习·unity·游戏引擎
my_daling28 分钟前
DSMC通信协议理解,以及如何在FPGA上实现DSMC从设备(1)
学习·fpga开发
嵌入式×边缘AI:打怪升级日志1 小时前
Makefile 完全学习笔记:从入门到通用模板解析
笔记·学习
ACGkaka_1 小时前
ES 学习(九)从文本到词元:分词器如何“拆解“你的数据
大数据·学习·elasticsearch
南無忘码至尊1 小时前
Unity学习90天-第1天-认识Unity并书写我们的第一个脚本
学习·unity·游戏引擎