NLP--关键词

在去停用词后的文本中进行词频统计和关键词统计以及词云图显示,来进行文本的关键词提取,让人一目了然。

1.词频统计

统计文本中多次出现的词语,来寻找文章中的关键词,因为多次出现很可能就是关键内容。调用统计数量的Counter库和用来分词的jieba库。观察出现次数最多的十个词中,两个字以上的词语都有哪些?他们出现的次数分别是多少?

2.关键词统计:有TF-IDF算法和textrank算法。

TF-IDF是评估一个词语对于一篇文档或一个语料库中的一篇文档的重要程度。词语的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。调用jieba库,使用jieba.analyse函数的jieba.analyse.extract_tags进行关键词提取。

textrank是一种基于图的排序算法,用于关键词的提取和文档摘要。该算法是从谷歌的网页重要性排序算法pagerank改进来的。调用jieba库,使用jieba.analyse函数的jieba.analyse.textrank进行关键词提取。

3.词云

词云通过文本预处理,词频统计,将高频词以图片形式进行色彩渲染三个步骤。词云生成需要调用matplotlib库进行词云绘制,jieba库进行分词和关键词提取,词云生成器wordcloud,对该生成器需要进行相关配置就可以生成相应的词云。其中,需要根据不同的环境设置相应的字体。

相关推荐
FL16238631294 分钟前
电力场景电杆类型识别分割数据集labelme格式4707张9类别
深度学习
●VON5 分钟前
跨设备状态同步实战:基于 HarmonyOS 分布式数据管理(DDM)构建多端协同应用
分布式·学习·华为·harmonyos·openharmony·von
杰瑞不懂代码15 分钟前
【公式推导】AMP算法比BP算法强在哪(二)
python·算法·机器学习·概率论
智算菩萨16 分钟前
深度学习在软件工程领域的系统性研究综述:理论、方法与实践
人工智能·深度学习·软件工程
知识分享小能手17 分钟前
CentOS Stream 9入门学习教程,从入门到精通,CentOS Stream 9 磁盘存储管理 —语法详解与实战案例(7)
linux·学习·centos
这张生成的图像能检测吗18 分钟前
(论文速读)DreamOmni:统一的图像生成和编辑
人工智能·深度学习·计算机视觉·图像生成、编辑
汤姆yu24 分钟前
基于SpringBoot的人工智能学习网站
spring boot·后端·学习·人工智能学习
Aspect of twilight29 分钟前
三种降维方式(PCA,t-SNE,UMAP)详解
深度学习·降维
老欧学视觉30 分钟前
0014机器学习案例一电信客户流失预测
人工智能·机器学习
海边夕阳200635 分钟前
【每天一个AI小知识】:什么是自然语言处理?
人工智能·深度学习·计算机视觉·语言模型·自然语言处理