计算机毕业设计hadoop+spark+hive漫画推荐系统 动漫视频推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据

流程:
++1.DrissionPage+Selenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库;
2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;
3.hive建库建表导入.csv动漫数据;
4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;
5.sqoop对分析结果导入mysql数据库;
6.Flask+echarts搭建可视化大屏;
创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现++

相关推荐
山海鲸实战案例分享2 小时前
【数字孪生实战案例】如何通过下拉菜单配置,实现地图标记点的联动筛选展示?~山海鲸可视化
数字孪生·数据可视化·零代码·实战案例·山海鲸可视化·下拉菜单·电子地图
wanhengidc3 小时前
服务器 数据科技发展
运维·服务器·爬虫·科技·游戏·智能手机
科技牛牛3 小时前
AI爬虫vs网站封禁:IP封锁大战升级
人工智能·爬虫·ip
docsz3 小时前
据数据基座搭建
大数据·hadoop
一只机电自动化菜鸟4 小时前
一建机电备考笔记(21):石油化工设备(含考频+易错点)
经验分享·笔记·学习·职场和发展·课程设计
小白学大数据4 小时前
Python 实现可交互滑块拼图,图形拖拽移动无卡顿
爬虫·python·microsoft·交互
Luca_kill14 小时前
MCP数据采集革命:从传统爬虫到智能代理的技术进化
爬虫·python·ai·数据采集·mcp·webscraping·集蜂云
ZC跨境爬虫15 小时前
Scrapy分布式爬虫(单机模拟多节点):豆瓣Top250项目设置与数据流全解析
分布式·爬虫·python·scrapy
深蓝电商API15 小时前
小红书商品笔记抓取:笔记ID与商品关联关系解析
爬虫·小红书
ZC跨境爬虫18 小时前
通俗易懂讲解分布式爬虫基础概念(附Scrapy-Redis实操教程)
redis·分布式·爬虫·python·scrapy