计算机毕业设计hadoop+hive知识图谱漫画推荐系统 动漫推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 大数据

流程:

1.DrissionPage+Selenium自动爬虫工具采集知音漫客动漫数据存入mysql数据库;

2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;

3.hive建库建表导入.csv动漫数据;

4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;

5.sqoop对分析结果导入mysql数据库;

6.Flask+echarts搭建可视化大屏;

创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现

可选装:推荐系统、预测系统、知识图谱、后台管理等。

核心算法代码分享如下:

sql 复制代码
drop table if exists ods_zymk;
create external table ods_zymk(
`id` int COMMENT 'mysql主键',
`title` string COMMENT '漫画名称',
`update_times` string COMMENT '更新时间',
`tag` string COMMENT '标签',
`content` string COMMENT '内容',
`readings` bigint COMMENT '阅读量',
`subscribes`  bigint COMMENT '订阅量',
`rewards` bigint COMMENT '打赏',
`monthtickets` bigint COMMENT '月票',
`recommends` bigint COMMENT '推荐量',
`comments` bigint COMMENT '评论量',
`scores` double COMMENT '评分',
`author` string COMMENT '作者',
`zp` string COMMENT '作品',
`ctime` string COMMENT '更新时间',
`img` string COMMENT '图片',
`url` string COMMENT '漫画地址'

)
row format delimited fields terminated by ','
location '/zymk2024/zymk';

select * from ods_zymk limit 1;
select count(1) from ods_zymk ;
相关推荐
蚂蚁数据AntData1 分钟前
从性能优化赛到社区Committer,走进赵宇捷在Apache Fory的成长之路
大数据·开源·apache·数据库架构
精灵vector20 分钟前
构建专家级SQL Agent交互
python·aigc·ai编程
q5673152329 分钟前
Java Selenium反爬虫技术方案
java·爬虫·selenium
Zonda要好好学习34 分钟前
Python入门Day2
开发语言·python
Vertira37 分钟前
pdf 合并 python实现(已解决)
前端·python·pdf
太凉41 分钟前
Python之 sorted() 函数的基本语法
python
项目題供诗1 小时前
黑马python(二十四)
开发语言·python
晓13132 小时前
OpenCV篇——项目(二)OCR文档扫描
人工智能·python·opencv·pycharm·ocr
是小王同学啊~2 小时前
(LangChain)RAG系统链路向量检索器之Retrievers(五)
python·算法·langchain
AIGC包拥它2 小时前
提示技术系列——链式提示
人工智能·python·langchain·prompt