文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州
▲ 本章节目的
⚪ 了解网站流量项目的Spark与HBase整合;
⚪ 掌握网站流量项目的实时流业务处理;
一、 Spark 与 HBase 整合基础
1. 实现步骤:
-
启动 IDEA。
-
创建 Maven 工程,骨架选择 quickstart 。
-
IDEA 安装 Scala 插件。
file ---> settings ---> plugins
搜素 Scala 插件,安装即可,安装完成后重启。
- 为 fluxStreamingServer 工程添加 Scala sdk 。
工程上右键 ---> add framework suppor
-
创建一个 Scala 目录,使其成为 source root 。
-
引入工程 pom,详见笔记。
-
学习 Spark 与 HBase 整合基础。
-
确定一下 Windows hosts 文件主机名与 ip 的映射是否正确。
-
启动服务器。
-
启动三台 zookeeper 集群。
-
启动 Hadoop 。
-
启动 HBase,进入01服务器 HBase 的 bin 目录, 执行如下指令:
- 执行如下指令进入 hbase客户端,建表。
sh hbase shell
二、实时流业务处理
1. 实现步骤:
-
启动三台服务器。
-
启动 zookeeper 集群。
-
启动 Hadoop 。
-
启动 Kafka 集群 。
-
启动 flume 。
-
整合 SparkStreaming 与 Kafka,完成代码编写。
-
启动 SparkStreaming 。
-
启动 tomcat,访问埋点服务器,测试 SparkStreaming 是否能够收到数据。
-
启动 HBase。