NLP--词袋模型

词袋模型如同所有单词打散放到一个袋子中,因此这种模型无法估计语义和语序问题,每个单词都是独立的。

1.文本分词:调用jieba库,使用精确模式对每个句子进行分词,并存入列表。

2.去除停用词:遍历停用词文件的每一行,删除字符串头和尾的空白字符(包括\n,\r,\t等),加到停用词集合里。然后遍历分词后列表的每一行,再遍历每一行的每一个单词,如果该单词不在停用词集合里,就把该单词放入新的行列表中,最后将所有行列表存入文本列表中。

3.建立文本词典:去除停用词,建立总词典,使用set函数将重复的词去掉并转化为列表。

4.建立词袋模型:for语句建立词袋模型,只包含0和1。

5.词袋模型局限性:维度灾难,向量中大量元素为0,没有考虑词与词之间的顺序和结构信息,存在语义鸿沟的问题。

相关推荐
桓峰基因11 分钟前
IF 7.5/Q2 空间转录组和单细胞结合机器学习识别预后和治疗靶点
人工智能·机器学习
晚烛16 分钟前
CANN 数据流水线优化:从数据加载到模型输入的端到端加速
开发语言·网络·人工智能·python·深度学习
AI街潜水的八角17 分钟前
PyTorch框架——基于深度学习PmrNet神经网络AI去噪图像增强系统(含训练代码、数据集和GUI交互界面)
人工智能·pytorch·深度学习
wuxinyan12320 分钟前
工业级大模型学习之路023:LangChain零基础入门教程(第六篇):重排序与高级检索策略
人工智能·python·学习·langchain
哎呦,帅小伙哦44 分钟前
Nanomsg中间件utils中部分工具学习记录
学习·中间件·nanomsg
song5011 小时前
对话:模型推理慢,怎么调
人工智能·分布式·深度学习·transformer·交互
Bechamz1 小时前
大数据开发学习Day40
大数据·学习
z小猫不吃鱼1 小时前
12 从 ViT 到 Swin:视觉 Transformer 主干网络的发展脉络总结
人工智能·深度学习·transformer
格桑阿sir1 小时前
02-大模型智能体开发工程师:Transformer架构核心原理
深度学习·ai·架构·llm·transformer·agent·智能体
你怎么知道我是队长1 小时前
和校验(CheckSum)
学习