选题思路
-
回忆学过的知识(Python、Java、Hadoop、Hive、Sqoop、Spark、算法等等。。。)
-
结合学过的知识确定大的方向
a. 确定技术方向,比如基于Hadoop、基于Hive、基于Spark 等等。。。
b. 确定业务方向,比如民宿分析、电商行为分析、天气分析等等。。。
-
确定方向后了解数据是否容易获取
a. 开源数据集
b. 爬虫爬取公开数据
-
理清整体逻辑和实现思路
-
实现流程
a. 大数据环境搭建(虚拟机,Hadoop,Hive,MySQL,Spark等等。。。)
b. 数据采集(爬虫,开源数据集)
c. 数据存储(HDFS)
d. 数据清洗(MapReduce,Spark)
e. 数据分析(Hive,Spark)
f. 数据同步(Sqoop)
g. 数据可视化(可视化大屏,分析系统)
推荐选题
推荐的选题列表(添加QQ群766206762 : 免费获取对应的数据)
基于协同过滤推荐算法的新闻推荐分析系统
基于协同过滤推荐算法的小说推荐分析系统
基于协同过滤推荐算法的景点推荐分析系统
基于协同过滤推荐算法的音乐推荐分析系统
基于协同过滤推荐算法的招聘推荐分析系统
基于协同过滤推荐算法的抖音短视频推荐分析系统
基于协同过滤推荐算法的民宿推荐分析系统
基于协同过滤推荐算法的电商护肤品推荐分析系统
基于协同过滤推荐算法的租房推荐分析系统
基于协同过滤推荐算法的旅游推荐分析系统
基于协同过滤推荐算法的游戏推荐分析系统
基于协同过滤推荐算法的漫画推荐分析系统
基于协同过滤推荐算法的美食推荐分析系统
基于协同过滤推荐算法的图书推荐分析系统
基于协同过滤推荐算法的电商智能家居推荐分析系统
基于协同过滤推荐算法的动漫推荐分析系统
基于协同过滤推荐算法的餐厅推荐分析系统
基于协同过滤推荐算法的电影推荐分析系统
基于Hadoop的网盘管理系统
天气数据的预测分析及可视化
房价数据的预测分析及可视化
基于Hadoop的网络舆情分析及可视化