我礼貌文明地爬了上万条掘金博客文章🤤,并简单地对其数据集做了数据分析和数据可视化🤤

前言

项目地址:blog_analysis (gitee.com)

关键词:Vue、python、Django、Numpy、Pandas·····

做什么:对稀土掘金博客进行数据收集、数据预处理、数据存储、数据处理与分析、数据可视化。

项目所分析的最新数据集最后截止日期:2023年12月14日

主要做什么:

  • 数据源展示:展示所爬取的文章数据(后端直接返回11772条数据),支持分页(在前端分页)
  • 文章热度分析:创建一个综合指标,考虑观看次数、点赞数、评论数和星级,以衡量每篇文章的影响力。使用基于加权平均的热度计算:热度 = w1 × 点赞数 + w2 × 评论数 + w3 × 收藏数
  • 创作时间分析:分析总体用户的创作时间偏好:周一到周五的文章比周末的文章多,按小时划分文章发布时间段
  • 文章标签分布:统计了文章的标签分布情况
  • 创作话题分布:统计了文章所关联的掘金官方话题 分布情况
  • 创作标题分布:统计了掘金创作者最喜欢使用的文章标题词汇,以及技术点。使用jieba库分词,和词云、柱状图来展示。由于词云是实时的需要耗费时间,还加了进度条等待。
  • 创作者排行:按创作者文章数量进行排行,选出靠前的劳模

收获:

  • 从周时间分布上看:工作日,用户有更多的时间和精力进行写作。周末写作意愿低。
  • 从24小时分布上看:上午8点至11点以及下午2点至5点的写作量较高。
  • 从热度上看:影响力高的文章,标题都很有趣,有深度有思考。
  • 从文章标签:掘金博客的内容覆盖面广泛,吸引了不同领域的技术人员参与交流和分享。但是也可以看出前端开发是掘金博客的主要内容,也是读者最感兴趣的话题。
  • 从创作标题上看:"如何",达到了776次,说明掘金博客包含了诸多编程问题的解决方法。
  • 从劳模作者排行看:具有发展潜力的作者有量子位、终有救赎、Yiko、anyup···等,值得关注。
  • ·····
  • 编不下去了😜😜😜(手动狗头护体)

运行效果

登录注册

登录

注册

主页

数据源展示可视化

文章热度分析可视化

创作时间分布可视化

文章标签标签分布可视化

文章话题分布可视化

文章标题分布可视化

创作者排行可视化

关于项目文件的简单介绍

数据采集

本项目爬虫由多个爬虫类同时组成,仅供学习

我一天24小时也就礼貌文明地爬个五、六百条,爬了十几天,非常文明。

数据分析处理

多线程加速数据分析实现了,

就在dataProcess\ThreedAccelerateLaborStatistical.py,芜湖!CPU小风扇哐哐转起来!

数据可视化

这部分属于前端

  • AnSomeone.vue 数据源展示可视化
  • AnInfluence.vue 文章热度分析可视化
  • AnTimeRank.vue 创作时间分布可视化
  • AnCategory.vue 文章标签标签分布可视化
  • AnTopic.vue 文章话题分布可视化
  • AnTitle.vue 文章标题分布可视化
  • AnLaborRank.vue 创作者排行可视化
  • CoreLogin.vue 登录组件
  • CoreRegister.vue 注册组件

blog_analysis

这部分属于基本的django应用

和别的django写法不一样的地方就是,我在views.py里面都是返回json数据,对,我没有用模板,而是做成前后端分离。

例如:

相关推荐
Mapmost5 小时前
项目验证加速度!一屏预览多源数据,三维场景直观可见
数据可视化
Mapmost5 小时前
城市规划场景落地:多风格城市白模制作全流程(附插件包)
数据可视化
菜牙买菜5 小时前
深度解析HiCharts联动与交互:手把手实现数据与图表的“对话”
前端·vue.js·数据可视化
IT毕设梦工厂8 小时前
大数据毕业设计选题推荐-基于大数据的1688商品类目关系分析与可视化系统-Hadoop-Spark-数据可视化-BigData
大数据·毕业设计·源码·数据可视化·bigdata·选题推荐
我要学习别拦我~8 小时前
读《精益数据分析》:规模化(Scale)—— 复制成功,进军新市场
经验分享·数据分析
阿里云大数据AI技术1 天前
ODPS 十五周年实录 | 为 AI 而生的数据平台
大数据·数据分析·开源
FIT2CLOUD飞致云1 天前
下拉组件Tag支持自定义背景颜色,图片组支持设置刷新频率,DataEase开源BI工具v2.10.12 LTS版本发布
开源·数据可视化
SelectDB技术团队1 天前
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
数据库·数据仓库·数据分析·apache doris·菜鸟技术
一个处女座的程序猿1 天前
DataAnalytics之Tool:Metabase的简介、安装和使用方法、案例应用之详细攻略
数据分析
喂完待续2 天前
【Tech Arch】Spark为何成为大数据引擎之王
大数据·hadoop·python·数据分析·spark·apache·mapreduce