NLP--关键词

在去停用词后的文本中进行词频统计和关键词统计以及词云图显示,来进行文本的关键词提取,让人一目了然。

1.词频统计

统计文本中多次出现的词语,来寻找文章中的关键词,因为多次出现很可能就是关键内容。调用统计数量的Counter库和用来分词的jieba库。观察出现次数最多的十个词中,两个字以上的词语都有哪些?他们出现的次数分别是多少?

2.关键词统计:有TF-IDF算法和textrank算法。

TF-IDF是评估一个词语对于一篇文档或一个语料库中的一篇文档的重要程度。词语的重要性与它在文档中出现的次数成正比,但与它在语料库中出现的频率成反比。调用jieba库,使用jieba.analyse函数的jieba.analyse.extract_tags进行关键词提取。

textrank是一种基于图的排序算法,用于关键词的提取和文档摘要。该算法是从谷歌的网页重要性排序算法pagerank改进来的。调用jieba库,使用jieba.analyse函数的jieba.analyse.textrank进行关键词提取。

3.词云

词云通过文本预处理,词频统计,将高频词以图片形式进行色彩渲染三个步骤。词云生成需要调用matplotlib库进行词云绘制,jieba库进行分词和关键词提取,词云生成器wordcloud,对该生成器需要进行相关配置就可以生成相应的词云。其中,需要根据不同的环境设置相应的字体。

相关推荐
nap-joker4 小时前
【多模态解耦】DecAlign:用于解耦多模态表示学习的分层跨模态对齐
学习·多模态融合·最优传输·多模态表征学习·特征解耦·音频+图像+文本·原型引导
551只玄猫4 小时前
【数据库原理 实验报告1】创建和管理数据库
数据库·sql·学习·mysql·课程设计·实验报告·数据库原理
IDZSY04305 小时前
AI社交平台进阶指南:如何用AI社交提升工作学习效率
人工智能·学习
happymaker06265 小时前
web前端学习日记——DAY05(定位、浮动、视频音频播放)
前端·学习·音视频
xuhaoyu_cpp_java5 小时前
过滤器与监听器学习
java·经验分享·笔记·学习
温九味闻醉6 小时前
关于腾讯广告算法大赛2025项目分析1 - dataset.py
人工智能·算法·机器学习
炽烈小老头6 小时前
【 每天学习一点算法 2026/03/23】数组中的第K个最大元素
学习·算法·排序算法
老鱼说AI6 小时前
大规模并发处理器程序设计(PMPP)讲解(CUDA架构):第四期:计算架构与调度
c语言·深度学习·算法·架构·cuda