计算机毕业设计hadoop+spark+hive漫画推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据

流程:
++1.DrissionPage+Selenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库;
2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;
3.hive建库建表导入.csv动漫数据;
4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;
5.sqoop对分析结果导入mysql数据库;
6.Flask+echarts搭建可视化大屏;
创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现++

相关推荐
哈哈~15619 分钟前
Spark RDD行动算子与共享变量实战:从数据聚合到分布式通信
spark
youka1501 小时前
大数据学习栈记——Hive4.0.1安装
大数据·hive·学习
工业互联网专业2 小时前
基于springboot+vue的摄影师分享交流社区的设计与实现
java·vue.js·spring boot·毕业设计·源码·课程设计·摄影师分享交流社区
凉白开3384 小时前
Spark-Streaming核心编程
大数据·分布式·spark
不要天天开心6 小时前
大数据利器:Kafka与Spark的深度探索
spark·scala
A-Kamen11 小时前
MySQL 存储引擎对比:InnoDB vs MyISAM vs Memory
数据库·mysql·spark
IT成长日记14 小时前
【Hive入门】Hive基础操作与SQL语法:DDL操作全面指南
hive·hadoop·sql·ddl操作
欧先生^_^14 小时前
Spark 的一些典型应用场景及具体示例
大数据·分布式·spark
IT成长日记14 小时前
【Hive入门】Hive分桶表深度解析:从哈希分桶到Join优化的完整指南
hive·hadoop·哈希算法·哈希分桶·join优化
Luck_ff081014 小时前
【Python爬虫详解】第四篇:使用解析库提取网页数据——BeautifuSoup
开发语言·爬虫·python