Python实战:小说分词统计-数据可视化

在这篇博客中,我们将利用Python的jiebamatplotlib库,对经典小说《战争与和平》进行中文词语分析,统计小说中出现最多的10个人名,并以柱形图的形式展示结果。我们会特别处理一些别名,使统计结果更为准确。

步骤概览

具体实现

读取文本数据 : 我们首先将《战争与和平》的文本文件读入程序中。这里假设文件名为war_and_peace.txt并且位于当前工作目录。

使用jieba进行分词jieba是一个中文分词工具,我们使用它将整篇文章分割成一个个单词。

统计人名出现次数 : 我们定义了一个包含主要人名的列表,并使用Counter对这些人名在分词结果中的出现次数进行统计。

合并别名: 为了统计的准确性,我们将一些别名合并到相应的人名。例如,"公爵"计入"安德烈","小姐"计入"娜塔莎","伯爵"计入"皮埃尔"。

绘制统计图表 : 使用matplotlib绘制柱形图,展示出现次数最多的10个人名及其出现次数。

结果展示

运行上述代码后,我们得到一张柱形图,显示了《战争与和平》中出现次数最多的10个人名及其出现次数。这种可视化方法可以帮助我们更直观地理解小说中主要人物的出场频率和重要性。

总结

通过这篇博客,我们展示了如何利用Python的jiebamatplotlib库对中文文本进行词语分析,并绘制统计图表。希望这篇博客能对你有所帮助,如果有任何问题或建议,欢迎留言讨论!


请确保在运行代码前已安装必要的Python库:

sh 复制代码
pip install jieba matplotlib

并将《战争与和平》的文本文件命名为war_and_peace.txt,放置在当前工作目录中。

程序

👉更多项目,点我查看

相关推荐
铉铉这波能秀3 小时前
LeetCode Hot100 中 enumerate 函数的妙用(2026.2月版)
数据结构·python·算法·leetcode·职场和发展·开发
毕设源码-赖学姐4 小时前
【开题答辩全过程】以 基于python的电影推荐系统为例,包含答辩的问题和答案
开发语言·python
敲键盘的生活4 小时前
MoneyPrinter重构之一:用nicegui调用大模型生成视频文案
python·重构·aigc·ai编程·ai写作
小邓睡不饱耶4 小时前
2026 CSDN榜单封神!3大热门技术+5个大厂案例,新手也能直接抄作业
python·ai
星辰_mya4 小时前
Elasticsearch线上问题之慢查询
java·开发语言·jvm
南极星10054 小时前
我的创作纪念日--128天
java·python·opencv·职场和发展
前端小菜袅4 小时前
PC端原样显示移动端页面方案
开发语言·前端·javascript·postcss·px-to-viewport·移动端适配pc端
码界筑梦坊4 小时前
327-基于Django的兰州空气质量大数据可视化分析系统
python·信息可视化·数据分析·django·毕业设计·数据可视化
Highcharts.js4 小时前
如何使用Highcharts SVG渲染器?
开发语言·javascript·python·svg·highcharts·渲染器
郝学胜-神的一滴4 小时前
超越Spring的Summer(一): PackageScanner 类实现原理详解
java·服务器·开发语言·后端·spring·软件构建