任务描述
掌握项目的总体功能,及实现流程。预习项目中所使用到的技术和知识点。
任务指导
一、项目效果展示
二、项目架构
1、总体架构:
2、技术架构
- 技术清单:
功能 | 组件 | 说明 |
---|---|---|
消息中间件 | Kafka | 消息队列 |
数据采集 | Flume | 日志采集工具 |
存储 | HDFS | 分布式文件系统 |
存储 | MySQL | 关系数据库 |
监控管理调度运维 | YARN | 分布式资源调度分配 |
监控管理调度运维 | Zookeeper | 集群节点协调 |
项目开发框架 | Maven | 项目管理工具 |
项目开发框架 | IntelliJ IDEA | 项目集成开发环境 |
三、项目主要涉及的技术
1、技术选型:项目的解决方案
以Maven+IntelliJ IDEA作为开发环境,以Hadoop HDFS、HBase为底层存储,通过分析HBase数据将结果存储在MySQL供前端框架展示。
- 中间件:Kafka
- 平台调度:YARN
- 数据存储,持久化:HDFS、HBase,MySQL
- 数据可视化:Spring Framework
2、平台总体分为4个层级,按数据流入及数据处理顺序,依次分为
1)数据导入层
数据导入需满足以下要求:
- 已开启Hadoop HDFS框架环境,已开启Highly Available(HA)高可用。
2)数据存储层
- 导入的数据统一经过Kafka缓存,以避免数据堵塞保证系统的稳定性。
3)数据分析层
- 已开启Hadoop YARN框架环境,已开启Highly Available(HA)高可用。
4)应用层
- 模拟电信呼叫数据保存至本地CallLog.txt文件;
- Flume推送CallLog.txt文件到Kafka进行缓存;
- 读取Kafka数据进行预处理并持久化道HBase;
- 对HBase数据进行分析统计,将结果保存至MySQL供前端Spring Framework查询展示。
四、参考资料
- 《Linux操作系统》
- 《Hadoop权威指南:大数据的存储与分析(第4版)》
- 《Kafka权威指南》
- 《Redis设计与实现》
- 《数据可视化技术》