计算机毕业设计hadoop+spark+hive漫画推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据

流程:
++1.DrissionPage+Selenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库;
2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;
3.hive建库建表导入.csv动漫数据;
4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;
5.sqoop对分析结果导入mysql数据库;
6.Flask+echarts搭建可视化大屏;
创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现++

相关推荐
乌恩大侠43 分钟前
AI-RAN 在 Spark上部署 Sionna-RK
大数据·分布式·spark
用户41429296072391 小时前
批量商品信息采集工具获取商品详情的完整方案
爬虫·数据挖掘·数据分析
用户41429296072391 小时前
淘宝实时商品API接口:采集竞品商品详情页的价格、SKU 规格、库存数量、卖点文案、图文内容、售后政策(运费、退换货规则)、评价核心标签
数据挖掘·数据分析·数据可视化
K***65896 小时前
从0到1部署Tomcat和添加servlet(IDEA2024最新版详细教程)
hive·servlet·tomcat
李兆龙的博客8 小时前
从一到无穷大 #61 Hive史诗
数据仓库·hive·hadoop
小白学大数据17 小时前
Python爬虫伪装策略:如何模拟浏览器正常访问JSP站点
java·开发语言·爬虫·python
思密吗喽18 小时前
宠物商城系统
java·开发语言·vue·毕业设计·springboot·课程设计·宠物
大云计算机毕设19 小时前
2026年计算机专业毕业设计热门选题推荐(微信小程序、Spring Boot、Python、大数据)
spring boot·毕业设计·课程设计·论文笔记·毕设
d***956220 小时前
爬虫自动化(DrissionPage)
爬虫·python·自动化
APIshop20 小时前
Python 零基础写爬虫:一步步抓取商品详情(超细详解)
开发语言·爬虫·python