https://pan.quark.cn/s/dcda6d27f500
集群成品:root-123456,ip192.168.121.128-130
以下是简略步骤
大数据集群环境搭建步骤(Hadoop + Spark 核心集群)
一、Hadoop 集群环境搭建(基础依赖)
前置准备:Spark 虚拟机环境搭建
- 镜像包下载与解压
- 打开资源管理器,访问
ftp://10.9.51.1,使用用户名pz、密码1234下载 Spark 镜像包; - 将镜像包复制到
E:\自己虚拟机目录,解压并确认目录结构完整。
- 打开资源管理器,访问
- 网络环境配置
- 开启宿主机
vmnet8虚拟网卡(确保网卡状态为 "启用"); - 在 VMware 中配置 NAT 网段(建议统一网段如
192.168.121.0/24),确保三台虚拟机在同一 NAT 网段。
- 开启宿主机
- 虚拟机导入与启动
- 打开 VMware,导入解压后的 Spark 虚拟机镜像,导入时选择【我已移动虚拟机】;
- 依次启动 Spark01、Spark02、Spark03 三台虚拟机;
- 登录每台虚拟机,执行
ifconfig查看 IP 地址(记录各节点 IP,如 Spark01:192.168.121.127、Spark02:192.168.121.128、Spark03:192.168.121.129); - 使用 Xshell 分别连接三台虚拟机(验证免密登录是否配置完成)。
核心组件部署(略,需完成基础环境)
- 安装 JDK(统一版本如 JDK8,配置
JAVA_HOME环境变量); - 部署 Hadoop 集群(配置 core-site.xml、hdfs-site.xml 等,启动 HDFS、YARN 服务);
- 安装 Hive(配置 hive-site.xml,关联 Metastore,启动 HiveServer2);
- 安装 Zookeeper 集群(配置 zoo.cfg,启动 zkServer.sh,验证集群状态)。
二、Spark 集群环境搭建(核心)
3. 部署 Flume(日志采集组件)
-
登录 Spark03 虚拟机,执行以下命令检查 Flume 部署状态: bash
运行
# 检查 Flume 安装目录是否存在 ll /export/servers | grep flume-1.10.1 # 检查 Flume 环境变量配置 cat /etc/profile | grep FLUME_HOME -
若目录 / 配置缺失,需解压 Flume 安装包到
/export/servers,并在/etc/profile中配置环境变量(FLUME_HOME、PATH),执行source /etc/profile生效。
4. 部署 Kafka 集群(消息队列组件)
启动 Kafka 服务(三台节点均执行)
bash
运行
# 创建日志目录(若不存在)
mkdir -p /export/data
# 启动 Kafka 并将日志输出到指定文件(后台运行)
kafka-server-start.sh $KAFKA_HOME/config/server.properties > /export/data/kafka.log 2>&1 &
验证 Kafka 启动状态
bash
运行
# 查看 Kafka 进程
jps | grep Kafka
# 查看日志是否有报错
tail -f /export/data/kafka.log
5. 部署 Spark 集群(核心计算框架)
启动 Spark 历史服务(Spark02 执行)
bash
运行
# 启动历史服务(依赖 HDFS 存储日志,需确保 Hadoop 已启动)
start-history-server.sh
# 验证历史服务进程
jps | grep HistoryServer
测试 Spark 部署(Spark02 执行)
bash
运行
# 提交 Pi 计算任务到 YARN 集群(验证 Spark 与 YARN 集成)
spark-submit --master yarn --deploy-mode client ${SPARK_HOME}/examples/src/main/python/pi.py 10
验证部署结果
- 访问 YARN Web UI:
http://192.168.121.128:8088(Spark02 的 IP),查看任务运行状态; - 访问 Spark 历史服务 UI:
http://192.168.121.128:18080,查看任务日志。
6. 部署 Doris 集群(OLAP 分析组件)
6.1 启动 Frontend(FE,Spark01 执行)
bash
运行
# 进入 FE 安装目录
cd /export/servers/doris-2.0.9/fe
# 后台启动 FE 服务
./bin/start_fe.sh --daemon
# 验证 FE 进程
jps | grep Frontend
6.2 启动 Backend(BE,Spark02/Spark03 分别执行)
bash
运行
# 进入 BE 安装目录
cd /export/servers/doris-2.0.9/be
# 后台启动 BE 服务
./bin/start_be.sh --daemon
# 验证 BE 进程
jps | grep Backend
6.3 在 Frontend 中添加 Backend(Spark01 执行)
bash
运行
# 登录 Doris FE 客户端
mysql -h Spark01 -P 9030 -u root
# 执行添加 BE 命令(替换为 Spark02/Spark03 的实际 IP)
ALTER SYSTEM ADD BACKEND "192.168.121.128:9050";
ALTER SYSTEM ADD BACKEND "192.168.121.129:9050";
# 验证 BE 状态
SHOW BACKENDS;
总结
- 集群搭建核心顺序:虚拟机环境 → 基础依赖(JDK/Hadoop/Zookeeper)→ 日志 / 消息组件(Flume/Kafka)→ 计算框架(Spark)→ 分析引擎(Doris);
- 关键验证点:每一步启动服务后,通过
jps查进程、日志查报错、Web UI 查状态; - 网络前提:确保三台虚拟机 NAT 网段互通,免密登录、环境变量配置生效。