day1-部署集群 - 技术栈

https://pan.quark.cn/s/dcda6d27f500

集群成品：root-123456，ip192.168.121.128-130

以下是简略步骤

大数据集群环境搭建步骤（Hadoop + Spark 核心集群）

一、Hadoop 集群环境搭建（基础依赖）

前置准备：Spark 虚拟机环境搭建

镜像包下载与解压
- 打开资源管理器，访问 ftp://10.9.51.1，使用用户名 pz、密码 1234 下载 Spark 镜像包；
- 将镜像包复制到 E:\自己虚拟机目录，解压并确认目录结构完整。
网络环境配置
- 开启宿主机 vmnet8 虚拟网卡（确保网卡状态为 "启用"）；
- 在 VMware 中配置 NAT 网段（建议统一网段如 192.168.121.0/24），确保三台虚拟机在同一 NAT 网段。
虚拟机导入与启动
- 打开 VMware，导入解压后的 Spark 虚拟机镜像，导入时选择【我已移动虚拟机】；
- 依次启动 Spark01、Spark02、Spark03 三台虚拟机；
- 登录每台虚拟机，执行 ifconfig 查看 IP 地址（记录各节点 IP，如 Spark01:192.168.121.127、Spark02:192.168.121.128、Spark03:192.168.121.129）；
- 使用 Xshell 分别连接三台虚拟机（验证免密登录是否配置完成）。

核心组件部署（略，需完成基础环境）

安装 JDK（统一版本如 JDK8，配置 JAVA_HOME 环境变量）；
部署 Hadoop 集群（配置 core-site.xml、hdfs-site.xml 等，启动 HDFS、YARN 服务）；
安装 Hive（配置 hive-site.xml，关联 Metastore，启动 HiveServer2）；
安装 Zookeeper 集群（配置 zoo.cfg，启动 zkServer.sh，验证集群状态）。

二、Spark 集群环境搭建（核心）

3. 部署 Flume（日志采集组件）

运行

复制代码

# 检查 Flume 安装目录是否存在
ll /export/servers | grep flume-1.10.1
# 检查 Flume 环境变量配置
cat /etc/profile | grep FLUME_HOME

若目录 / 配置缺失，需解压 Flume 安装包到 /export/servers，并在 /etc/profile 中配置环境变量（FLUME_HOME、PATH），执行 source /etc/profile 生效。

4. 部署 Kafka 集群（消息队列组件）

启动 Kafka 服务（三台节点均执行）

bash

运行

复制代码

# 创建日志目录（若不存在）
mkdir -p /export/data
# 启动 Kafka 并将日志输出到指定文件（后台运行）
kafka-server-start.sh $KAFKA_HOME/config/server.properties > /export/data/kafka.log 2>&1 &

验证 Kafka 启动状态

bash

运行

复制代码

# 查看 Kafka 进程
jps | grep Kafka
# 查看日志是否有报错
tail -f /export/data/kafka.log

5. 部署 Spark 集群（核心计算框架）

启动 Spark 历史服务（Spark02 执行）

bash

运行

复制代码

# 启动历史服务（依赖 HDFS 存储日志，需确保 Hadoop 已启动）
start-history-server.sh
# 验证历史服务进程
jps | grep HistoryServer

测试 Spark 部署（Spark02 执行）

bash

运行

复制代码

# 提交 Pi 计算任务到 YARN 集群（验证 Spark 与 YARN 集成）
spark-submit --master yarn --deploy-mode client ${SPARK_HOME}/examples/src/main/python/pi.py 10

验证部署结果

访问 YARN Web UI：http://192.168.121.128:8088（Spark02 的 IP），查看任务运行状态；
访问 Spark 历史服务 UI：http://192.168.121.128:18080，查看任务日志。

6. 部署 Doris 集群（OLAP 分析组件）

6.1 启动 Frontend（FE，Spark01 执行）

bash

运行

复制代码

# 进入 FE 安装目录
cd /export/servers/doris-2.0.9/fe
# 后台启动 FE 服务
./bin/start_fe.sh --daemon
# 验证 FE 进程
jps | grep Frontend

6.2 启动 Backend（BE，Spark02/Spark03 分别执行）

bash

运行

复制代码

# 进入 BE 安装目录
cd /export/servers/doris-2.0.9/be
# 后台启动 BE 服务
./bin/start_be.sh --daemon
# 验证 BE 进程
jps | grep Backend

6.3 在 Frontend 中添加 Backend（Spark01 执行）

bash

运行

复制代码

# 登录 Doris FE 客户端
mysql -h Spark01 -P 9030 -u root
# 执行添加 BE 命令（替换为 Spark02/Spark03 的实际 IP）
ALTER SYSTEM ADD BACKEND "192.168.121.128:9050";
ALTER SYSTEM ADD BACKEND "192.168.121.129:9050";
# 验证 BE 状态
SHOW BACKENDS;

总结

集群搭建核心顺序：虚拟机环境 → 基础依赖（JDK/Hadoop/Zookeeper）→ 日志 / 消息组件（Flume/Kafka）→ 计算框架（Spark）→ 分析引擎（Doris）；
关键验证点：每一步启动服务后，通过 jps 查进程、日志查报错、Web UI 查状态；
网络前提：确保三台虚拟机 NAT 网段互通，免密登录、环境变量配置生效。