我礼貌文明地爬了上万条掘金博客文章🤤,并简单地对其数据集做了数据分析和数据可视化🤤

前言

项目地址:blog_analysis (gitee.com)

关键词:Vue、python、Django、Numpy、Pandas·····

做什么:对稀土掘金博客进行数据收集、数据预处理、数据存储、数据处理与分析、数据可视化。

项目所分析的最新数据集最后截止日期:2023年12月14日

主要做什么:

  • 数据源展示:展示所爬取的文章数据(后端直接返回11772条数据),支持分页(在前端分页)
  • 文章热度分析:创建一个综合指标,考虑观看次数、点赞数、评论数和星级,以衡量每篇文章的影响力。使用基于加权平均的热度计算:热度 = w1 × 点赞数 + w2 × 评论数 + w3 × 收藏数
  • 创作时间分析:分析总体用户的创作时间偏好:周一到周五的文章比周末的文章多,按小时划分文章发布时间段
  • 文章标签分布:统计了文章的标签分布情况
  • 创作话题分布:统计了文章所关联的掘金官方话题 分布情况
  • 创作标题分布:统计了掘金创作者最喜欢使用的文章标题词汇,以及技术点。使用jieba库分词,和词云、柱状图来展示。由于词云是实时的需要耗费时间,还加了进度条等待。
  • 创作者排行:按创作者文章数量进行排行,选出靠前的劳模

收获:

  • 从周时间分布上看:工作日,用户有更多的时间和精力进行写作。周末写作意愿低。
  • 从24小时分布上看:上午8点至11点以及下午2点至5点的写作量较高。
  • 从热度上看:影响力高的文章,标题都很有趣,有深度有思考。
  • 从文章标签:掘金博客的内容覆盖面广泛,吸引了不同领域的技术人员参与交流和分享。但是也可以看出前端开发是掘金博客的主要内容,也是读者最感兴趣的话题。
  • 从创作标题上看:"如何",达到了776次,说明掘金博客包含了诸多编程问题的解决方法。
  • 从劳模作者排行看:具有发展潜力的作者有量子位、终有救赎、Yiko、anyup···等,值得关注。
  • ·····
  • 编不下去了😜😜😜(手动狗头护体)

运行效果

登录注册

登录

注册

主页

数据源展示可视化

文章热度分析可视化

创作时间分布可视化

文章标签标签分布可视化

文章话题分布可视化

文章标题分布可视化

创作者排行可视化

关于项目文件的简单介绍

数据采集

本项目爬虫由多个爬虫类同时组成,仅供学习

我一天24小时也就礼貌文明地爬个五、六百条,爬了十几天,非常文明。

数据分析处理

多线程加速数据分析实现了,

就在dataProcess\ThreedAccelerateLaborStatistical.py,芜湖!CPU小风扇哐哐转起来!

数据可视化

这部分属于前端

  • AnSomeone.vue 数据源展示可视化
  • AnInfluence.vue 文章热度分析可视化
  • AnTimeRank.vue 创作时间分布可视化
  • AnCategory.vue 文章标签标签分布可视化
  • AnTopic.vue 文章话题分布可视化
  • AnTitle.vue 文章标题分布可视化
  • AnLaborRank.vue 创作者排行可视化
  • CoreLogin.vue 登录组件
  • CoreRegister.vue 注册组件

blog_analysis

这部分属于基本的django应用

和别的django写法不一样的地方就是,我在views.py里面都是返回json数据,对,我没有用模板,而是做成前后端分离。

例如:

相关推荐
lilye663 小时前
精益数据分析(19/126):走出数据误区,拥抱创业愿景
前端·人工智能·数据分析
过期的秋刀鱼!3 小时前
数据分析之技术干货业务价值 powerquery 分组排序后取TOP
数据挖掘·数据分析·excel·数据清洗·分组排序·powerquery·电商货品分析
郭不耐4 小时前
DeepSeek智能时空数据分析(五):基于区域人口数量绘制地图散点-大模型搜集数据NL2SQL加工数据
数据分析·aigc·时序数据库·数据可视化·大屏端
anyup6 小时前
借助 Trae 从 0 到 1 实现海外地图渲染(leaflet + OSM)
前端·数据可视化·trae
郭不耐7 小时前
DeepSeek智能时空数据分析(四):绘制行政区域并定制样式
信息可视化·数据挖掘·数据分析·数据可视化
没有梦想的咸鱼185-1037-16639 小时前
【降尺度】ChatGPT+DeepSeek+python+CMIP6数据分析与可视化、降尺度技术与气候变化的区域影响、极端气候分析
python·chatgpt·数据分析
lilye669 小时前
精益数据分析(26/126):依据商业模式确定关键指标
大数据·人工智能·数据分析
七七知享11 小时前
深入探索Python Pandas:解锁数据分析的无限可能
python·程序人生·程序员·数据挖掘·数据分析·pandas·个人开发
梦想画家11 小时前
使用 LLM助手进行 Python 数据可视化
python·数据分析·大模型应用
没有梦想的咸鱼185-1037-166313 小时前
解锁空间数据新质生产力暨:AI(DeepSeek、ChatGPT)、Python、ArcGIS Pro多技术融合下的空间数据分析、建模与科研绘图及论文写作
人工智能·python·深度学习·机器学习·arcgis·chatgpt·数据分析