流程:
++1.DrissionPage+Selenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库;
2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;
3.hive建库建表导入.csv动漫数据;
4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;
5.sqoop对分析结果导入mysql数据库;
6.Flask+echarts搭建可视化大屏;
创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现++
计算机毕业设计hadoop+spark+hive漫画推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据
B站计算机毕业设计超人2024-08-24 12:32
相关推荐
武昌库里写JAVA21 分钟前
iview Switch Tabs TabPane 使用提示Maximum call stack size exceeded堆栈溢出itachi-uchiha3 小时前
Docker部署Hive大数据组件viperrrrrrrrrr74 小时前
大数据学习(131)-Hive数据分析函数总结白熊1885 小时前
【推荐算法】DeepFM:特征交叉建模的革命性架构电商API_180079052475 小时前
构建高效可靠的电商 API:设计原则与实践指南白熊1887 小时前
【推荐算法】NeuralCF:深度学习重构协同过滤的革命性突破qq_408413398 小时前
spark 执行 hive sql数据丢失后端码匠8 小时前
Spark 单机模式部署与启动waterHBO8 小时前
python 爬虫工具 mitmproxy, 几问几答,记录一下qq_4639448611 小时前
【Spark征服之路-2.3-Spark运行架构】