NLP--关键词

在去停用词后的文本中进行词频统计和关键词统计以及词云图显示,来进行文本的关键词提取,让人一目了然。

1.词频统计

统计文本中多次出现的词语,来寻找文章中的关键词,因为多次出现很可能就是关键内容。调用统计数量的Counter库和用来分词的jieba库。观察出现次数最多的十个词中,两个字以上的词语都有哪些?他们出现的次数分别是多少?

2.关键词统计:有TF-IDF算法和textrank算法。

TF-IDF是评估一个词语对于一篇文档或一个语料库中的一篇文档的重要程度。词语的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。调用jieba库,使用jieba.analyse函数的jieba.analyse.extract_tags进行关键词提取。

textrank是一种基于图的排序算法,用于关键词的提取和文档摘要。该算法是从谷歌的网页重要性排序算法pagerank改进来的。调用jieba库,使用jieba.analyse函数的jieba.analyse.textrank进行关键词提取。

3.词云

词云通过文本预处理,词频统计,将高频词以图片形式进行色彩渲染三个步骤。词云生成需要调用matplotlib库进行词云绘制,jieba库进行分词和关键词提取,词云生成器wordcloud,对该生成器需要进行相关配置就可以生成相应的词云。其中,需要根据不同的环境设置相应的字体。

相关推荐
LN-ZMOI18 分钟前
c++学习笔记1
c++·笔记·学习
五味香22 分钟前
C++学习,信号处理
android·c语言·开发语言·c++·学习·算法·信号处理
sp_fyf_202436 分钟前
[大语言模型-论文精读] 更大且更可指导的语言模型变得不那么可靠
人工智能·深度学习·神经网络·搜索引擎·语言模型·自然语言处理
毕小宝1 小时前
逻辑回归(下): Sigmoid 函数的发展历史
算法·机器学习·逻辑回归
云端奇趣1 小时前
探索 3 个有趣的 GitHub 学习资源库
经验分享·git·学习·github
我感觉。1 小时前
【信号与系统第五章】13、希尔伯特变换
学习·dsp开发
知识分享小能手1 小时前
mysql学习教程,从入门到精通,SQL 修改表(ALTER TABLE 语句)(29)
大数据·开发语言·数据库·sql·学习·mysql·数据分析
冰榫2 小时前
9.30学习记录(补)
学习
@qike2 小时前
【C++】—— 日期类的实现
c语言·c++·笔记·算法·学习方法
霸王蟹2 小时前
Vue3 项目中为啥不需要根标签了?
前端·javascript·vue.js·笔记·学习