我礼貌文明地爬了上万条掘金博客文章🤤,并简单地对其数据集做了数据分析和数据可视化🤤

前言

项目地址:blog_analysis (gitee.com)

关键词:Vue、python、Django、Numpy、Pandas·····

做什么:对稀土掘金博客进行数据收集、数据预处理、数据存储、数据处理与分析、数据可视化。

项目所分析的最新数据集最后截止日期:2023年12月14日

主要做什么:

  • 数据源展示:展示所爬取的文章数据(后端直接返回11772条数据),支持分页(在前端分页)
  • 文章热度分析:创建一个综合指标,考虑观看次数、点赞数、评论数和星级,以衡量每篇文章的影响力。使用基于加权平均的热度计算:热度 = w1 × 点赞数 + w2 × 评论数 + w3 × 收藏数
  • 创作时间分析:分析总体用户的创作时间偏好:周一到周五的文章比周末的文章多,按小时划分文章发布时间段
  • 文章标签分布:统计了文章的标签分布情况
  • 创作话题分布:统计了文章所关联的掘金官方话题 分布情况
  • 创作标题分布:统计了掘金创作者最喜欢使用的文章标题词汇,以及技术点。使用jieba库分词,和词云、柱状图来展示。由于词云是实时的需要耗费时间,还加了进度条等待。
  • 创作者排行:按创作者文章数量进行排行,选出靠前的劳模

收获:

  • 从周时间分布上看:工作日,用户有更多的时间和精力进行写作。周末写作意愿低。
  • 从24小时分布上看:上午8点至11点以及下午2点至5点的写作量较高。
  • 从热度上看:影响力高的文章,标题都很有趣,有深度有思考。
  • 从文章标签:掘金博客的内容覆盖面广泛,吸引了不同领域的技术人员参与交流和分享。但是也可以看出前端开发是掘金博客的主要内容,也是读者最感兴趣的话题。
  • 从创作标题上看:"如何",达到了776次,说明掘金博客包含了诸多编程问题的解决方法。
  • 从劳模作者排行看:具有发展潜力的作者有量子位、终有救赎、Yiko、anyup···等,值得关注。
  • ·····
  • 编不下去了😜😜😜(手动狗头护体)

运行效果

登录注册

登录

注册

主页

数据源展示可视化

文章热度分析可视化

创作时间分布可视化

文章标签标签分布可视化

文章话题分布可视化

文章标题分布可视化

创作者排行可视化

关于项目文件的简单介绍

数据采集

本项目爬虫由多个爬虫类同时组成,仅供学习

我一天24小时也就礼貌文明地爬个五、六百条,爬了十几天,非常文明。

数据分析处理

多线程加速数据分析实现了,

就在dataProcess\ThreedAccelerateLaborStatistical.py,芜湖!CPU小风扇哐哐转起来!

数据可视化

这部分属于前端

  • AnSomeone.vue 数据源展示可视化
  • AnInfluence.vue 文章热度分析可视化
  • AnTimeRank.vue 创作时间分布可视化
  • AnCategory.vue 文章标签标签分布可视化
  • AnTopic.vue 文章话题分布可视化
  • AnTitle.vue 文章标题分布可视化
  • AnLaborRank.vue 创作者排行可视化
  • CoreLogin.vue 登录组件
  • CoreRegister.vue 注册组件

blog_analysis

这部分属于基本的django应用

和别的django写法不一样的地方就是,我在views.py里面都是返回json数据,对,我没有用模板,而是做成前后端分离。

例如:

相关推荐
RestCloud2 小时前
ETLCloud异常问题分析ai功能
人工智能·ai·数据分析·etl·数据集成工具·数据异常
Aloudata4 小时前
NoETL自动化指标平台为数据分析提质增效,驱动业务决策
大数据·数据分析·指标平台·指标体系
陈燚_重生之又为程序员11 小时前
基于梧桐数据库的实时数据分析解决方案
数据库·数据挖掘·数据分析
枝上棉蛮12 小时前
GISBox VS ArcGIS:分别适用于大型和小型项目的两款GIS软件
arcgis·gis·数据可视化·数据处理·地理信息系统·gis工具箱·gisbox
布说在见1 天前
魅力标签云,奇幻词云图 —— 数据可视化新境界
信息可视化·数据挖掘·数据分析
Tianyanxiao1 天前
如何利用探商宝精准营销,抓住行业机遇——以AI技术与大数据推动企业信息精准筛选
大数据·人工智能·科技·数据分析·深度优先·零售
招风的黑耳1 天前
Axure大屏可视化模板:赋能各行各业的数据展示与管理
axure·数据可视化·大屏模板
FIT2CLOUD飞致云1 天前
仪表板展示|DataEase看中国:历年双十一电商销售数据分析
数据分析·开源·数据可视化·dataease·双十一
皓7411 天前
服饰电商行业知识管理的创新实践与知识中台的重要性
大数据·人工智能·科技·数据分析·零售
菜鸟的人工智能之路1 天前
桑基图在医学数据分析中的更复杂应用示例
python·数据分析·健康医疗