计算机毕业设计hadoop+spark+hive动漫推荐系统 漫画推荐系统 漫画分析可视化大屏 漫画爬虫 漫画推荐系统 漫画爬虫 知识图谱 大数据毕设

流程:

1.DrissionPage采集知音漫客约2万条国产动漫数据存入mysql数据库;

2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;

3.hive建库建表导入.csv动漫数据;

4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;

5.sqoop对分析结果导入mysql数据库;

6.Flask+echarts搭建可视化大屏;

创新点:Python全新DrissionPage爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现

可选装:推荐系统、预测系统、知识图谱、后台管理等。

核心算法代码分享如下:

sql 复制代码
/*
Navicat MySQL Data Transfer

Source Server         : Win7本地测试_localhost_3306_123456_版本5.7
Source Server Version : 50714
Source Host           : localhost:3306
Source Database       : hive_zymk

Target Server Type    : MYSQL
Target Server Version : 50714
File Encoding         : 65001

Date: 2023-08-30 11:43:34
*/

SET FOREIGN_KEY_CHECKS=0;

-- ----------------------------
-- Table structure for tb_zymk
-- ----------------------------
DROP TABLE IF EXISTS `tb_zymk`;
CREATE TABLE `tb_zymk` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `title` text COLLATE utf8mb4_bin COMMENT '漫画名称',
  `update_times` text COLLATE utf8mb4_bin COMMENT '每周更新时间',
  `tags` text COLLATE utf8mb4_bin COMMENT '标签',
  `content` text COLLATE utf8mb4_bin COMMENT '内容',
  `readings` text COLLATE utf8mb4_bin COMMENT '阅读量',
  `subscribes` text COLLATE utf8mb4_bin COMMENT '订阅量',
  `rewards` text COLLATE utf8mb4_bin COMMENT '打赏',
  `monthtickets` text COLLATE utf8mb4_bin COMMENT '月票',
  `recommends` text COLLATE utf8mb4_bin COMMENT '推荐次数',
  `comments` text COLLATE utf8mb4_bin COMMENT '评论量',
  `scores` text COLLATE utf8mb4_bin COMMENT '评分',
  `author` text COLLATE utf8mb4_bin COMMENT '作者',
  `zps` text COLLATE utf8mb4_bin COMMENT '代表作',
  `ctime` text COLLATE utf8mb4_bin COMMENT '章节最后更新时间',
  `img` text COLLATE utf8mb4_bin,
  `url` text COLLATE utf8mb4_bin,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1437 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin;
相关推荐
铉铉这波能秀6 分钟前
LeetCode Hot100数据结构背景知识之集合(Set)Python2026新版
数据结构·python·算法·leetcode·哈希算法
藦卡机器人8 分钟前
国产机械臂做的比较好的品牌有哪些?
大数据·数据库·人工智能
代码改善世界24 分钟前
CANN深度解构:中国AI系统软件的原创性突破与架构创新
大数据·人工智能·架构
啵啵鱼爱吃小猫咪32 分钟前
机械臂能量分析
线性代数·机器学习·概率论
怒放吧德德33 分钟前
Python3基础:基础实战巩固,从“会用”到“活用”
后端·python
aiguangyuan40 分钟前
基于BERT的中文命名实体识别实战解析
人工智能·python·nlp
喵手40 分钟前
Python爬虫实战:知识挖掘机 - 知乎问答与专栏文章的深度分页采集系统(附CSV导出 + SQLite持久化存储)!
爬虫·python·爬虫实战·零基础python爬虫教学·采集知乎问答与专栏文章·采集知乎数据·采集知乎数据存储sqlite
铉铉这波能秀41 分钟前
LeetCode Hot100数据结构背景知识之元组(Tuple)Python2026新版
数据结构·python·算法·leetcode·元组·tuple
kali-Myon43 分钟前
2025春秋杯网络安全联赛冬季赛-day2
python·安全·web安全·ai·php·pwn·ctf
java-yi1 小时前
Elasticsearch(ES)核心用法与实战技巧分享
大数据·elasticsearch·搜索引擎