计算机毕业设计hadoop+hive知识图谱漫画推荐系统 动漫推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 大数据

流程:

1.DrissionPage+Selenium自动爬虫工具采集知音漫客动漫数据存入mysql数据库;

2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;

3.hive建库建表导入.csv动漫数据;

4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;

5.sqoop对分析结果导入mysql数据库;

6.Flask+echarts搭建可视化大屏;

创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现

可选装:推荐系统、预测系统、知识图谱、后台管理等。

核心算法代码分享如下:

sql 复制代码
drop table if exists ods_zymk;
create external table ods_zymk(
`id` int COMMENT 'mysql主键',
`title` string COMMENT '漫画名称',
`update_times` string COMMENT '更新时间',
`tag` string COMMENT '标签',
`content` string COMMENT '内容',
`readings` bigint COMMENT '阅读量',
`subscribes`  bigint COMMENT '订阅量',
`rewards` bigint COMMENT '打赏',
`monthtickets` bigint COMMENT '月票',
`recommends` bigint COMMENT '推荐量',
`comments` bigint COMMENT '评论量',
`scores` double COMMENT '评分',
`author` string COMMENT '作者',
`zp` string COMMENT '作品',
`ctime` string COMMENT '更新时间',
`img` string COMMENT '图片',
`url` string COMMENT '漫画地址'

)
row format delimited fields terminated by ','
location '/zymk2024/zymk';

select * from ods_zymk limit 1;
select count(1) from ods_zymk ;
相关推荐
摘星编程2 分钟前
解析CANN ops-nn中的Transpose算子:张量维度变换的高效实现
python
星辰_mya7 分钟前
Elasticsearch更新了分词器之后
大数据·elasticsearch·搜索引擎
Liekkas Kono10 分钟前
RapidOCR Python 贡献指南
开发语言·python·rapidocr
xiaobaibai15312 分钟前
决策引擎深度拆解:AdAgent 用 CoT+RL 实现营销自主化决策
大数据·人工智能
心疼你的一切18 分钟前
数字智人:CANN加速的实时数字人生成与交互
数据仓库·深度学习·aigc·交互·cann
玄同76521 分钟前
Python 后端三剑客:FastAPI/Flask/Django 对比与 LLM 开发选型指南
人工智能·python·机器学习·自然语言处理·django·flask·fastapi
悟纤28 分钟前
学习与专注音乐流派 (Study & Focus Music):AI 音乐创作终极指南 | Suno高级篇 | 第33篇
大数据·人工智能·深度学习·学习·suno·suno api
爱吃泡芙的小白白29 分钟前
环境数据多维关系探索利器:Pairs Plot 完全指南
python·信息可视化·数据分析·环境领域·pairs plot
ESBK202530 分钟前
第四届移动互联网、云计算与信息安全国际会议(MICCIS 2026)二轮征稿启动,诚邀全球学者共赴学术盛宴
大数据·网络·物联网·网络安全·云计算·密码学·信息与通信