NLP--词袋模型

词袋模型如同所有单词打散放到一个袋子中,因此这种模型无法估计语义和语序问题,每个单词都是独立的。

1.文本分词:调用jieba库,使用精确模式对每个句子进行分词,并存入列表。

2.去除停用词:遍历停用词文件的每一行,删除字符串头和尾的空白字符(包括\n,\r,\t等),加到停用词集合里。然后遍历分词后列表的每一行,再遍历每一行的每一个单词,如果该单词不在停用词集合里,就把该单词放入新的行列表中,最后将所有行列表存入文本列表中。

3.建立文本词典:去除停用词,建立总词典,使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型:for语句建立词袋模型,只包含0和1。

5.词袋模型局限性:维度灾难,向量中大量元素为0,没有考虑词与词之间的顺序和结构信息,存在语义鸿沟的问题。

相关推荐
babe小鑫6 分钟前
数据岗位的发展与学习数据分析指南
学习·数据挖掘·数据分析
楼田莉子8 分钟前
仿Muduo的高并发服务器:Channel模块与Poller模块
linux·服务器·c++·学习·设计模式
知识分享小能手11 分钟前
R语言入门学习教程,从入门到精通,R语言网络关系数据可视化(8)
学习·信息可视化·r语言
机器学习之心12 分钟前
信号分解+深度学习+RUL预测!MVMD-Transformer-BiGRU锂电池剩余寿命预测(容量特征提取+剩余寿命预测)
深度学习·transformer·锂电池剩余寿命预测
xieliyu.13 分钟前
Java手搓数据结构:栈与队列模拟实现
java·数据结构·学习
zhangrelay13 分钟前
ROS Kinetic-信号与系统-趣味案例
linux·笔记·学习·ubuntu
AI科技星17 分钟前
全域数学视角下N维广义数系的推广与本源恒等式构建【乖乖数学】
人工智能·机器学习·数学建模·数据挖掘
程序媛小鱼19 分钟前
吴恩达 Agent Skills 学习笔记
机器学习
MediaTea20 分钟前
人工智能通识课:Scikit-learn 机器学习工具库
人工智能·python·机器学习·scikit-learn
郝学胜-神的一滴25 分钟前
二分类任务核心:BCE 损失函数从原理到 PyTorch 实战
人工智能·pytorch·python·算法·机器学习·分类·数据挖掘