计算机毕业设计hadoop+spark+hive漫画推荐系统动漫视频推荐系统漫画分析可视化大屏漫画爬虫漫画推荐系统漫画爬虫知识图谱大数据

B站计算机毕业设计超人2024-08-24 12:32

流程：
++1.DrissionPage+Selenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库；
2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等，转为.csv文件上传hadoop的hdfs集群；
3.hive建库建表导入.csv动漫数据；
4.一半指标使用hive_sql分析得出，一半指标使用Spark之Scala完成；
5.sqoop对分析结果导入mysql数据库；
6.Flask+echarts搭建可视化大屏；
创新点：Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现++

计算机毕业设计hadoop+spark+hive漫画推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据

计算机毕业设计hadoop+spark+hive漫画推荐系统动漫视频推荐系统漫画分析可视化大屏漫画爬虫漫画推荐系统漫画爬虫知识图谱大数据