我礼貌文明地爬了上万条掘金博客文章🤤,并简单地对其数据集做了数据分析和数据可视化🤤

前言

项目地址:blog_analysis (gitee.com)

关键词:Vue、python、Django、Numpy、Pandas·····

做什么:对稀土掘金博客进行数据收集、数据预处理、数据存储、数据处理与分析、数据可视化。

项目所分析的最新数据集最后截止日期:2023年12月14日

主要做什么:

  • 数据源展示:展示所爬取的文章数据(后端直接返回11772条数据),支持分页(在前端分页)
  • 文章热度分析:创建一个综合指标,考虑观看次数、点赞数、评论数和星级,以衡量每篇文章的影响力。使用基于加权平均的热度计算:热度 = w1 × 点赞数 + w2 × 评论数 + w3 × 收藏数
  • 创作时间分析:分析总体用户的创作时间偏好:周一到周五的文章比周末的文章多,按小时划分文章发布时间段
  • 文章标签分布:统计了文章的标签分布情况
  • 创作话题分布:统计了文章所关联的掘金官方话题 分布情况
  • 创作标题分布:统计了掘金创作者最喜欢使用的文章标题词汇,以及技术点。使用jieba库分词,和词云、柱状图来展示。由于词云是实时的需要耗费时间,还加了进度条等待。
  • 创作者排行:按创作者文章数量进行排行,选出靠前的劳模

收获:

  • 从周时间分布上看:工作日,用户有更多的时间和精力进行写作。周末写作意愿低。
  • 从24小时分布上看:上午8点至11点以及下午2点至5点的写作量较高。
  • 从热度上看:影响力高的文章,标题都很有趣,有深度有思考。
  • 从文章标签:掘金博客的内容覆盖面广泛,吸引了不同领域的技术人员参与交流和分享。但是也可以看出前端开发是掘金博客的主要内容,也是读者最感兴趣的话题。
  • 从创作标题上看:"如何",达到了776次,说明掘金博客包含了诸多编程问题的解决方法。
  • 从劳模作者排行看:具有发展潜力的作者有量子位、终有救赎、Yiko、anyup···等,值得关注。
  • ·····
  • 编不下去了😜😜😜(手动狗头护体)

运行效果

登录注册

登录

注册

主页

数据源展示可视化

文章热度分析可视化

创作时间分布可视化

文章标签标签分布可视化

文章话题分布可视化

文章标题分布可视化

创作者排行可视化

关于项目文件的简单介绍

数据采集

本项目爬虫由多个爬虫类同时组成,仅供学习

我一天24小时也就礼貌文明地爬个五、六百条,爬了十几天,非常文明。

数据分析处理

多线程加速数据分析实现了,

就在dataProcess\ThreedAccelerateLaborStatistical.py,芜湖!CPU小风扇哐哐转起来!

数据可视化

这部分属于前端

  • AnSomeone.vue 数据源展示可视化
  • AnInfluence.vue 文章热度分析可视化
  • AnTimeRank.vue 创作时间分布可视化
  • AnCategory.vue 文章标签标签分布可视化
  • AnTopic.vue 文章话题分布可视化
  • AnTitle.vue 文章标题分布可视化
  • AnLaborRank.vue 创作者排行可视化
  • CoreLogin.vue 登录组件
  • CoreRegister.vue 注册组件

blog_analysis

这部分属于基本的django应用

和别的django写法不一样的地方就是,我在views.py里面都是返回json数据,对,我没有用模板,而是做成前后端分离。

例如:

相关推荐
Captain_Data41 分钟前
SQL优化实战:如何让查询速度提升10倍
数据库·sql·mysql·性能优化·数据分析
源码之家1 小时前
计算机毕业设计:Python农产品智能推荐与可视化分析系统 Flask框架 矩阵分解 数据分析 可视化 协同过滤推荐算法 深度学习(建议收藏)✅
python·矩阵·数据挖掘·数据分析·django·flask·课程设计
张家锋1 小时前
Apache Iceberg vs Apache Paimon :数据湖表格式深度对比与选型指南
大数据·数据分析·spark
FIT2CLOUD飞致云2 小时前
DataEase Skills技能体系上线,DataEase开源BI工具v2.10.21 LTS版本发布
开源·数据可视化·dataease·bi·skills
jarreyer2 小时前
【数据分析风控领域】风控指标记录
数据挖掘·数据分析
Mr数据杨2 小时前
不可学习 ImageNet 二分类实战 从图像识别到训练数据投毒防御
学习·机器学习·分类·数据挖掘·数据分析·kaggle
YangYang9YangYan2 小时前
大数据时代数据分析的价值与前景
大数据·数据挖掘·数据分析
qyr67892 小时前
全球汽车AI智能体市场调研与行业发展趋势
大数据·人工智能·数据分析·汽车·生活·汽车ai智能体
YangYang9YangYan3 小时前
2026体制内学数据分析的价值与应用前景
数据挖掘·数据分析
Mr数据杨3 小时前
医学影像分类模型构建与辅助诊断落地
机器学习·数据分析·kaggle