计算机毕业设计hadoop+hive知识图谱漫画推荐系统 动漫推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 大数据

流程:

1.DrissionPage+Selenium自动爬虫工具采集知音漫客动漫数据存入mysql数据库;

2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;

3.hive建库建表导入.csv动漫数据;

4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;

5.sqoop对分析结果导入mysql数据库;

6.Flask+echarts搭建可视化大屏;

创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现

可选装:推荐系统、预测系统、知识图谱、后台管理等。

核心算法代码分享如下:

sql 复制代码
drop table if exists ods_zymk;
create external table ods_zymk(
`id` int COMMENT 'mysql主键',
`title` string COMMENT '漫画名称',
`update_times` string COMMENT '更新时间',
`tag` string COMMENT '标签',
`content` string COMMENT '内容',
`readings` bigint COMMENT '阅读量',
`subscribes`  bigint COMMENT '订阅量',
`rewards` bigint COMMENT '打赏',
`monthtickets` bigint COMMENT '月票',
`recommends` bigint COMMENT '推荐量',
`comments` bigint COMMENT '评论量',
`scores` double COMMENT '评分',
`author` string COMMENT '作者',
`zp` string COMMENT '作品',
`ctime` string COMMENT '更新时间',
`img` string COMMENT '图片',
`url` string COMMENT '漫画地址'

)
row format delimited fields terminated by ','
location '/zymk2024/zymk';

select * from ods_zymk limit 1;
select count(1) from ods_zymk ;
相关推荐
小脑斧1233 分钟前
AI Skills 全链路自动化运营实践:抖音热点、小红书种草与文生图一体化方案
大数据·人工智能·小红书·skills·自动化运营
kaico20183 分钟前
Python 在 Jenkins Pipeline 中的使用总结
开发语言·python·jenkins
多彩电脑4 分钟前
在Kivy中制造可移动控件
python
白露与泡影7 分钟前
告别OOM焦虑:Flink 内存模型原理与诊断调优
大数据·flink
Zy_Yin12313 分钟前
拆解如何用anthropic金融agent做投研
人工智能·python·深度学习·金融·github
清水白石00813 分钟前
Python 变量的本质:从“盒子思维”到“引用思维”,彻底理解赋值到底发生了什么
java·python·ajax
yaoxin52112314 分钟前
423. Java 日期时间 API - DayOfWeek 和 Month 枚举
开发语言·python
时寒的笔记17 分钟前
LF11期_day19~20 补环境(三)案例
爬虫·webpack·node.js
燐妤18 分钟前
Python工具使用:Pycharm
python·pycharm
Wonderful U22 分钟前
基于Python+Django的私有化云笔记系统:从痛点分析到完整实现
笔记·python·django