计算机毕业设计hadoop+hive知识图谱漫画推荐系统 动漫推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 大数据

流程:

1.DrissionPage+Selenium自动爬虫工具采集知音漫客动漫数据存入mysql数据库;

2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;

3.hive建库建表导入.csv动漫数据;

4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;

5.sqoop对分析结果导入mysql数据库;

6.Flask+echarts搭建可视化大屏;

创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现

可选装:推荐系统、预测系统、知识图谱、后台管理等。

核心算法代码分享如下:

sql 复制代码
drop table if exists ods_zymk;
create external table ods_zymk(
`id` int COMMENT 'mysql主键',
`title` string COMMENT '漫画名称',
`update_times` string COMMENT '更新时间',
`tag` string COMMENT '标签',
`content` string COMMENT '内容',
`readings` bigint COMMENT '阅读量',
`subscribes`  bigint COMMENT '订阅量',
`rewards` bigint COMMENT '打赏',
`monthtickets` bigint COMMENT '月票',
`recommends` bigint COMMENT '推荐量',
`comments` bigint COMMENT '评论量',
`scores` double COMMENT '评分',
`author` string COMMENT '作者',
`zp` string COMMENT '作品',
`ctime` string COMMENT '更新时间',
`img` string COMMENT '图片',
`url` string COMMENT '漫画地址'

)
row format delimited fields terminated by ','
location '/zymk2024/zymk';

select * from ods_zymk limit 1;
select count(1) from ods_zymk ;
相关推荐
阿里云大数据AI技术4 分钟前
Apache Paimon 多模态数据湖实践:从结构化到非结构化的技术演进
大数据·人工智能
Swizard4 分钟前
告别“裸奔”代码:用 Pydantic 让你的 Python 数据固若金汤
python
字节跳动数据平台13 分钟前
评测也很酷,Data Agent 自动化评测的三层框架与实战
大数据
老歌老听老掉牙13 分钟前
砂轮轮廓的数学建模与可视化分析
python·数学建模·sympy·砂轮
是阿威啊15 分钟前
【第一站】本地虚拟机部署Hadoop分布式集群
大数据·linux·hadoop·分布式
天天讯通18 分钟前
BI 报表:呼叫中心的伪刚需
大数据·前端·数据库
xoliu119 分钟前
Pytorch核心基础入门
人工智能·pytorch·python
跨境卫士—小依22 分钟前
TikTok Shop 进化全解析,从内容驱动到品牌共建,抢占跨境新赛道
大数据·人工智能·跨境电商·亚马逊·防关联
一瞬祈望23 分钟前
ResNet50 图像分类完整实战(Notebook Demo + 训练代码)
人工智能·python·神经网络·数据挖掘
其美杰布-富贵-李25 分钟前
PyTorch Lightning Callback 指南
人工智能·pytorch·python·回调函数·callback