计算机毕业设计hadoop+spark+hive漫画推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据

流程:
++1.DrissionPage+Selenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库;
2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;
3.hive建库建表导入.csv动漫数据;
4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;
5.sqoop对分析结果导入mysql数据库;
6.Flask+echarts搭建可视化大屏;
创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现++

相关推荐
知否技术6 分钟前
Vue3项目中轻松开发自适应的可视化大屏!附源码!
前端·数据可视化
华科云商xiao徐13 分钟前
TypeScript在异步处理与类型安全的双重优势
爬虫·数据挖掘·数据分析
incidite17 分钟前
爬虫与数据分析入门:从中国大学排名爬取到数据可视化全流程
爬虫·信息可视化·数据分析
Lx3524 小时前
HDFS文件系统优化:提升数据读写性能的5个秘诀
大数据·hadoop·后端
wyn2000112815 小时前
Spark学习(Pyspark)
spark
lifallen18 小时前
Hadoop MapReduce过程
大数据·数据结构·hadoop·分布式·apache
beijingliushao19 小时前
30-Hive SQL-DML-Load加载数据
数据仓库·hive·apache
Lx3521 天前
Hadoop新手必知的10个高效操作技巧
hadoop·后端
シ風箏1 天前
Hive【应用 04】常用DDL操作(数据库操作+创建表+修改表+清空删除表+其他命令)
数据库·hive·hadoop
华科云商xiao徐1 天前
响应式爬虫系统设计:Scala异步任务编排与弹性容错机制
爬虫·scala