大数据课程L7——网站流量项目的操作步骤

伟雄2023-09-13 8:14

文章作者邮箱：yugongshiye@sina.cn 地址：广东惠州

▲ 本章节目的

⚪ 了解网站流量项目的Spark与HBase整合；

⚪ 掌握网站流量项目的实时流业务处理；

一、 Spark 与 HBase 整合基础

1. 实现步骤：

启动 IDEA。
创建 Maven 工程，骨架选择 quickstart 。
IDEA 安装 Scala 插件。

file ---> settings ---> plugins

搜素 Scala 插件，安装即可，安装完成后重启。

为 fluxStreamingServer 工程添加 Scala sdk 。

工程上右键 ---> add framework suppor

创建一个 Scala 目录，使其成为 source root 。
引入工程 pom，详见笔记。
学习 Spark 与 HBase 整合基础。
确定一下 Windows hosts 文件主机名与 ip 的映射是否正确。
启动服务器。
启动三台 zookeeper 集群。
启动 Hadoop 。
启动 HBase，进入01服务器 HBase 的 bin 目录，执行如下指令：

sh start-hbase.sh

执行如下指令进入 hbase客户端，建表。

sh hbase shell

二、实时流业务处理

1. 实现步骤：

启动三台服务器。
启动 zookeeper 集群。
启动 Hadoop 。
启动 Kafka 集群。
启动 flume 。
整合 SparkStreaming 与 Kafka，完成代码编写。
启动 SparkStreaming 。
启动 tomcat，访问埋点服务器，测试 SparkStreaming 是否能够收到数据。
启动 HBase。

上一篇：ArrayList和LinkedList的区别

下一篇：mysql 快速上传数据

热门推荐

01UV安装并设置国内源 02Qwen3-Coder 快速上手教程 | Qwen Code + Claude Code 03【2025.08.06最新版】Android Studio下载、安装及配置记录（自动下载sdk）042025最新国内服务器可用docker源仓库地址大全（2025年8月更新）05KGG转MP3工具|非KGM文件|解密音频 06全球最强模型Grok4，国内已可免费使用！（附教程）07TRAE Rules 实践：为项目配置 6A 工作流 08蜘蛛磁力搜索引擎大全，如何使用蜘蛛磁力查找磁力链接 09NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 10GPT-5 使用限制与国内升级全攻略（免费 / Plus / Pro）【2025 最新】