NLP--词袋模型

词袋模型如同所有单词打散放到一个袋子中,因此这种模型无法估计语义和语序问题,每个单词都是独立的。

1.文本分词:调用jieba库,使用精确模式对每个句子进行分词,并存入列表。

2.去除停用词:遍历停用词文件的每一行,删除字符串头和尾的空白字符(包括\n,\r,\t等),加到停用词集合里。然后遍历分词后列表的每一行,再遍历每一行的每一个单词,如果该单词不在停用词集合里,就把该单词放入新的行列表中,最后将所有行列表存入文本列表中。

3.建立文本词典:去除停用词,建立总词典,使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型:for语句建立词袋模型,只包含0和1。

5.词袋模型局限性:维度灾难,向量中大量元素为0,没有考虑词与词之间的顺序和结构信息,存在语义鸿沟的问题。

相关推荐
shayudiandian13 小时前
Transformer结构完全解读:从Attention到LLM
人工智能·深度学习·transformer
xier_ran13 小时前
深度学习:深入理解 Softmax 激活函数
人工智能·深度学习
py有趣13 小时前
LeetCode算法学习之鸡蛋掉落
学习·算法·leetcode
aitoolhub14 小时前
重塑机器人未来:空间智能驱动产业智能化升级
大数据·人工智能·深度学习·机器学习·机器人·aigc
淬炼之火14 小时前
阅读:基于深度学习的红外可见光图像融合综述
图像处理·深度学习·机器学习·计算机视觉·特征融合·红外图像识别
小马爱打代码14 小时前
RabbitMQ:系统学习笔记
笔记·学习·rabbitmq
极客BIM工作室14 小时前
思维链(CoT)的本质:无需架构调整,仅靠提示工程激活大模型推理能力
人工智能·机器学习·架构
YJlio14 小时前
进程和诊断工具速查手册(8.13):VMMap / DebugView / LiveKd / Handle / ListDLLs 一页式现场排障清单
数据库·笔记·学习
三条猫14 小时前
AI 大模型如何给 CAD 3D 模型“建立语义”?
人工智能·机器学习·3d·ai·大模型·cad
bst@微胖子15 小时前
ModelScope微调模型
人工智能·深度学习·bert