计算机毕业设计hadoop+hive知识图谱漫画推荐系统 动漫推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 大数据

流程:

1.DrissionPage+Selenium自动爬虫工具采集知音漫客动漫数据存入mysql数据库;

2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;

3.hive建库建表导入.csv动漫数据;

4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;

5.sqoop对分析结果导入mysql数据库;

6.Flask+echarts搭建可视化大屏;

创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现

可选装:推荐系统、预测系统、知识图谱、后台管理等。

核心算法代码分享如下:

sql 复制代码
drop table if exists ods_zymk;
create external table ods_zymk(
`id` int COMMENT 'mysql主键',
`title` string COMMENT '漫画名称',
`update_times` string COMMENT '更新时间',
`tag` string COMMENT '标签',
`content` string COMMENT '内容',
`readings` bigint COMMENT '阅读量',
`subscribes`  bigint COMMENT '订阅量',
`rewards` bigint COMMENT '打赏',
`monthtickets` bigint COMMENT '月票',
`recommends` bigint COMMENT '推荐量',
`comments` bigint COMMENT '评论量',
`scores` double COMMENT '评分',
`author` string COMMENT '作者',
`zp` string COMMENT '作品',
`ctime` string COMMENT '更新时间',
`img` string COMMENT '图片',
`url` string COMMENT '漫画地址'

)
row format delimited fields terminated by ','
location '/zymk2024/zymk';

select * from ods_zymk limit 1;
select count(1) from ods_zymk ;
相关推荐
测试老哥13 分钟前
Web自动化测试:Cypress 测试框架概述
自动化测试·软件测试·python·selenium·测试工具·职场和发展·测试用例
墨神谕17 分钟前
ES为什么要进行分片
大数据·elasticsearch·搜索引擎
曲幽20 分钟前
FastAPI项目半夜报警吵醒你?聊聊告警这事儿怎么搞!
python·logging·fastapi·web·monitoring·webserver·health·uptimerobot
Bert.Cai29 分钟前
Python模块简介
开发语言·python
2501_9249526930 分钟前
自动化机器学习(AutoML)库TPOT使用指南
jvm·数据库·python
Thomas.Sir36 分钟前
第二章:Python3 之 列表与元组
python·列表·元组
忘忧记43 分钟前
Fixture详解
开发语言·python
赵谨言44 分钟前
地球磁场干扰噪声减弱声波对抗测量系统研究进展:近十年中英文文献综述
大数据·开发语言·经验分享
zhongqimeng1 小时前
中国商业联合会召开《城郊大仓基地冷库应急保障能力要求》《城郊大仓基地高效配送服务指南》团体标准审查会
大数据
echome8881 小时前
Python 装饰器实战:用@syntax 优雅地增强函数功能
开发语言·python