NLP--词袋模型

词袋模型如同所有单词打散放到一个袋子中,因此这种模型无法估计语义和语序问题,每个单词都是独立的。

1.文本分词:调用jieba库,使用精确模式对每个句子进行分词,并存入列表。

2.去除停用词:遍历停用词文件的每一行,删除字符串头和尾的空白字符(包括\n,\r,\t等),加到停用词集合里。然后遍历分词后列表的每一行,再遍历每一行的每一个单词,如果该单词不在停用词集合里,就把该单词放入新的行列表中,最后将所有行列表存入文本列表中。

3.建立文本词典:去除停用词,建立总词典,使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型:for语句建立词袋模型,只包含0和1。

5.词袋模型局限性:维度灾难,向量中大量元素为0,没有考虑词与词之间的顺序和结构信息,存在语义鸿沟的问题。

相关推荐
(❁´◡`❁)Jimmy(❁´◡`❁)17 小时前
Exgcd 学习笔记
笔记·学习·算法
云小逸18 小时前
【nmap源码学习】 Nmap网络扫描工具深度解析:从基础参数到核心扫描逻辑
网络·数据库·学习
zhangfeng113319 小时前
氨基酸序列表示法,蛋白质序列表达 计算机中机器学习 大语言模型中的表达,为什么没有糖蛋白或者其他基团磷酸化甲基化乙酰化泛素化
人工智能·机器学习·语言模型
陈天伟教授19 小时前
人工智能应用- 语言理解:06.大语言模型
人工智能·语言模型·自然语言处理
OpenBayes19 小时前
教程上新|DeepSeek-OCR 2公式/表格解析同步改善,以低视觉token成本实现近4%的性能跃迁
人工智能·深度学习·目标检测·机器学习·大模型·ocr·gpu算力
退休钓鱼选手20 小时前
[ Pytorch教程 ] 神经网络的基本骨架 torch.nn -Neural Network
pytorch·深度学习·神经网络
盐焗西兰花21 小时前
鸿蒙学习实战之路-Reader Kit构建阅读器最佳实践
学习·华为·harmonyos
哥布林学者21 小时前
吴恩达深度学习课程:深度学习入门笔记全集目录
深度学习·ai
Eloudy21 小时前
直接法 读书笔记 01 第1章 引言
人工智能·机器学习·hpc
xsc-xyc21 小时前
RuntimeError: Dataset ‘/data.yaml‘ error ❌ ‘_lz
人工智能·深度学习·yolo·计算机视觉·视觉检测