计算机毕业设计hadoop+spark+hive漫画推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据

流程:
++1.DrissionPage+Selenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库;
2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;
3.hive建库建表导入.csv动漫数据;
4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;
5.sqoop对分析结果导入mysql数据库;
6.Flask+echarts搭建可视化大屏;
创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现++

相关推荐
vx_biyesheji000124 分钟前
计算机毕业设计:Python多源新闻数据智能舆情挖掘平台 Flask框架 爬虫 SnowNLP ARIMA 可视化 数据分析 大数据(建议收藏)✅
爬虫·python·机器学习·数据分析·django·flask·课程设计
smchaopiao40 分钟前
Hive中的排序与分桶技术详解
数据仓库·hive·hadoop
j_xxx404_2 小时前
爬虫对抗:ZLibrary反爬机制实战分析 (三) - 突破高频访问限制与TLS指纹(JA3)风控
爬虫
16Miku2 小时前
Mapping-Skill:把 AI/ML 人才搜索、作者挖掘与个性化触达整合成一条工作流
爬虫·ai·飞书·agent·skill·openclaw·龙虾
j_xxx404_2 小时前
爬虫对抗:ZLibrary反爬机制实战分析 (一) - 撕裂前端JS混淆与环境检测伪装
爬虫
小邓睡不饱耶4 小时前
东方财富网股票数据爬取实战:从接口分析到数据存储
开发语言·爬虫·python·网络爬虫
Pioneer000014 小时前
爬虫对抗:ZLibrary反爬机制实战分析
爬虫
j_xxx404_4 小时前
爬虫对抗:ZLibrary反爬机制实战分析 (二) - 破解动态请求签名与参数加密
爬虫
vx_biyesheji00014 小时前
计算机毕业设计:Python全栈图书数据挖掘与可视化看板 Django框架 爬虫 当当图书 Pandas 可视化 大数据 大模型 书籍(建议收藏)✅
爬虫·python·机器学习·数据挖掘·django·毕业设计·课程设计
Highcharts.js17 小时前
React 图表如何实现下钻(Drilldown)效果
开发语言·前端·javascript·react.js·前端框架·数据可视化·highcharts