NLP--关键词

在去停用词后的文本中进行词频统计和关键词统计以及词云图显示,来进行文本的关键词提取,让人一目了然。

1.词频统计

统计文本中多次出现的词语,来寻找文章中的关键词,因为多次出现很可能就是关键内容。调用统计数量的Counter库和用来分词的jieba库。观察出现次数最多的十个词中,两个字以上的词语都有哪些?他们出现的次数分别是多少?

2.关键词统计:有TF-IDF算法和textrank算法。

TF-IDF是评估一个词语对于一篇文档或一个语料库中的一篇文档的重要程度。词语的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。调用jieba库,使用jieba.analyse函数的jieba.analyse.extract_tags进行关键词提取。

textrank是一种基于图的排序算法,用于关键词的提取和文档摘要。该算法是从谷歌的网页重要性排序算法pagerank改进来的。调用jieba库,使用jieba.analyse函数的jieba.analyse.textrank进行关键词提取。

3.词云

词云通过文本预处理,词频统计,将高频词以图片形式进行色彩渲染三个步骤。词云生成需要调用matplotlib库进行词云绘制,jieba库进行分词和关键词提取,词云生成器wordcloud,对该生成器需要进行相关配置就可以生成相应的词云。其中,需要根据不同的环境设置相应的字体。

相关推荐
Danceful_YJ1 天前
33.Transformer架构
人工智能·pytorch·深度学习
宇若-凉凉1 天前
BERT 完整教程指南
人工智能·深度学习·bert
lkbhua莱克瓦241 天前
Java基础——方法
java·开发语言·笔记·github·学习方法
StarPrayers.1 天前
自蒸馏学习方法
人工智能·算法·学习方法
深度学习lover1 天前
<数据集>yolo航拍斑马线识别数据集<目标检测>
人工智能·深度学习·yolo·目标检测·计算机视觉·数据集·航拍斑马线识别
Fantasydg1 天前
Servlet学习
学习·servlet
雍凉明月夜1 天前
Ⅰ人工智能学习的核心概念概述+线性回归(1)
人工智能·学习
Dyanic1 天前
融合尺度感知注意力、多模态提示学习与融合适配器的RGBT跟踪
人工智能·深度学习·transformer
2301_783360131 天前
R语言 | 带重要性相关热图和贡献图如何解释?如何绘制随机森林计算结果重要性及相关性图?[学习笔记]
学习·随机森林·r语言
潲爺1 天前
Java IDEA学习之路:第九周课程笔记归纳
java·学习·intellij-idea