计算机毕业设计hadoop+hive知识图谱漫画推荐系统 动漫推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 大数据

流程:

1.DrissionPage+Selenium自动爬虫工具采集知音漫客动漫数据存入mysql数据库;

2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;

3.hive建库建表导入.csv动漫数据;

4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;

5.sqoop对分析结果导入mysql数据库;

6.Flask+echarts搭建可视化大屏;

创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现

可选装:推荐系统、预测系统、知识图谱、后台管理等。

核心算法代码分享如下:

sql 复制代码
drop table if exists ods_zymk;
create external table ods_zymk(
`id` int COMMENT 'mysql主键',
`title` string COMMENT '漫画名称',
`update_times` string COMMENT '更新时间',
`tag` string COMMENT '标签',
`content` string COMMENT '内容',
`readings` bigint COMMENT '阅读量',
`subscribes`  bigint COMMENT '订阅量',
`rewards` bigint COMMENT '打赏',
`monthtickets` bigint COMMENT '月票',
`recommends` bigint COMMENT '推荐量',
`comments` bigint COMMENT '评论量',
`scores` double COMMENT '评分',
`author` string COMMENT '作者',
`zp` string COMMENT '作品',
`ctime` string COMMENT '更新时间',
`img` string COMMENT '图片',
`url` string COMMENT '漫画地址'

)
row format delimited fields terminated by ','
location '/zymk2024/zymk';

select * from ods_zymk limit 1;
select count(1) from ods_zymk ;
相关推荐
a95114164215 分钟前
CSS如何实现元素隐藏不占位_使用display-none完全移除
jvm·数据库·python
rabbit_pro28 分钟前
Python调用onnx模型
开发语言·python
深蓝电商API40 分钟前
闲鱼商品信息抓取:基于 Frida 的 APP 逆向与数据提取
爬虫·闲鱼
AC赳赳老秦1 小时前
OpenClaw生成博客封面图+标题,适配CSDN视觉搜索,提升点击量
运维·人工智能·python·自动化·php·deepseek·openclaw
龙腾AI白云2 小时前
大模型在天文科研中的应用:天体数据分析
大数据·flask·逻辑回归·pygame
m0_493934532 小时前
如何监控AWR数据收集Job_DBA_SCHEDULER_JOBS中的BSLN_MAINTAIN_STATS
jvm·数据库·python
xiaotao1312 小时前
01-编程基础与数学基石:概率与统计
人工智能·python·numpy·pandas
快乐非自愿2 小时前
抛弃传统AI:OpenClaw与Skill重构AI生产力,技术范式不可逆
大数据·人工智能
赵侃侃爱分享2 小时前
学完Python第一次写程序写了这个简单的计算器
开发语言·python
a9511416422 小时前
Go语言如何操作OSS_Go语言阿里云OSS上传教程【完整】
jvm·数据库·python