NLP--词袋模型

词袋模型如同所有单词打散放到一个袋子中,因此这种模型无法估计语义和语序问题,每个单词都是独立的。

1.文本分词:调用jieba库,使用精确模式对每个句子进行分词,并存入列表。

2.去除停用词:遍历停用词文件的每一行,删除字符串头和尾的空白字符(包括\n,\r,\t等),加到停用词集合里。然后遍历分词后列表的每一行,再遍历每一行的每一个单词,如果该单词不在停用词集合里,就把该单词放入新的行列表中,最后将所有行列表存入文本列表中。

3.建立文本词典:去除停用词,建立总词典,使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型:for语句建立词袋模型,只包含0和1。

5.词袋模型局限性:维度灾难,向量中大量元素为0,没有考虑词与词之间的顺序和结构信息,存在语义鸿沟的问题。

相关推荐
阿登林2 小时前
初步学习WPF-Prism
学习·wpf
朝日六六花_LOCK2 小时前
深度学习之NLP基础
人工智能·深度学习·自然语言处理
Hao想睡觉3 小时前
循环神经网络实战:用 LSTM 做中文情感分析(二)
rnn·深度学习·lstm
武昌库里写JAVA4 小时前
使用 Java 开发 Android 应用:Kotlin 与 Java 的混合编程
java·vue.js·spring boot·sql·学习
山中月侣5 小时前
Java多线程编程——基础篇
java·开发语言·经验分享·笔记·学习方法
爱学习的小道长5 小时前
神经网络中 标量求导和向量求导
pytorch·深度学习·神经网络
Struart_R5 小时前
LLaVA-3D,Video-3D LLM,VG-LLM,SPAR论文解读
人工智能·深度学习·计算机视觉·3d·大语言模型·多模态
格林威5 小时前
Baumer高防护相机如何通过YoloV8深度学习模型实现网球运动员和网球速度的检测分析(C#代码UI界面版)
人工智能·深度学习·数码相机·yolo·ui·c#·视觉检测
天天进步20155 小时前
Python机器学习入门:用scikit-learn构建你的第一个预测模型
python·机器学习·scikit-learn
小眼睛FPGA6 小时前
【盘古100Pro+开发板实验例程】FPGA学习 | gamma 变化 | 图像实验指导手册
科技·学习·ai·fpga开发·fpga