NLP--关键词

在去停用词后的文本中进行词频统计和关键词统计以及词云图显示,来进行文本的关键词提取,让人一目了然。

1.词频统计

统计文本中多次出现的词语,来寻找文章中的关键词,因为多次出现很可能就是关键内容。调用统计数量的Counter库和用来分词的jieba库。观察出现次数最多的十个词中,两个字以上的词语都有哪些?他们出现的次数分别是多少?

2.关键词统计:有TF-IDF算法和textrank算法。

TF-IDF是评估一个词语对于一篇文档或一个语料库中的一篇文档的重要程度。词语的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。调用jieba库,使用jieba.analyse函数的jieba.analyse.extract_tags进行关键词提取。

textrank是一种基于图的排序算法,用于关键词的提取和文档摘要。该算法是从谷歌的网页重要性排序算法pagerank改进来的。调用jieba库,使用jieba.analyse函数的jieba.analyse.textrank进行关键词提取。

3.词云

词云通过文本预处理,词频统计,将高频词以图片形式进行色彩渲染三个步骤。词云生成需要调用matplotlib库进行词云绘制,jieba库进行分词和关键词提取,词云生成器wordcloud,对该生成器需要进行相关配置就可以生成相应的词云。其中,需要根据不同的环境设置相应的字体。

相关推荐
北_鱼10 分钟前
支持向量机(SVM):算法讲解与原理推导
算法·机器学习·支持向量机
鸟哥大大16 分钟前
【Python】pypinyin-汉字拼音转换工具
python·自然语言处理
靡不有初11132 分钟前
CCF-CSP第18次认证第一题——报数【两个与string相关的函数的使用】
c++·学习·ccfcsp
gu202 小时前
c#编程:学习Linq,重几个简单示例开始
开发语言·学习·c#·linq
AC使者2 小时前
介绍 TensorFlow 的基本概念和使用场景。
开发语言·自然语言处理·sqlite·github
小蒜学长2 小时前
医疗报销系统的设计与实现(代码+数据库+LW)
数据库·spring boot·学习·oracle·课程设计
羊小猪~~3 小时前
MYSQL学习笔记(九):MYSQL表的“增删改查”
数据库·笔记·后端·sql·学习·mysql·考研
余多多_zZ3 小时前
鸿蒙初学者学习手册(HarmonyOSNext_API14)_组件截图(@ohos.arkui.componentSnapshot (组件截图) )
学习·华为·harmonyos·鸿蒙·鸿蒙系统
終不似少年遊*3 小时前
词向量与词嵌入
人工智能·深度学习·nlp·机器翻译·词嵌入
IT古董4 小时前
【漫话机器学习系列】100.L2 范数(L2 Norm,欧几里得范数)
人工智能·机器学习