day1-部署集群

https://pan.quark.cn/s/dcda6d27f500

集群成品:root-123456,ip192.168.121.128-130

以下是简略步骤

大数据集群环境搭建步骤(Hadoop + Spark 核心集群)

一、Hadoop 集群环境搭建(基础依赖)

前置准备:Spark 虚拟机环境搭建

  1. 镜像包下载与解压
    • 打开资源管理器,访问 ftp://10.9.51.1,使用用户名 pz、密码 1234 下载 Spark 镜像包;
    • 将镜像包复制到 E:\自己虚拟机目录,解压并确认目录结构完整。
  2. 网络环境配置
    • 开启宿主机 vmnet8 虚拟网卡(确保网卡状态为 "启用");
    • 在 VMware 中配置 NAT 网段(建议统一网段如 192.168.121.0/24),确保三台虚拟机在同一 NAT 网段。
  3. 虚拟机导入与启动
    • 打开 VMware,导入解压后的 Spark 虚拟机镜像,导入时选择【我已移动虚拟机】;
    • 依次启动 Spark01、Spark02、Spark03 三台虚拟机;
    • 登录每台虚拟机,执行 ifconfig 查看 IP 地址(记录各节点 IP,如 Spark01:192.168.121.127、Spark02:192.168.121.128、Spark03:192.168.121.129);
    • 使用 Xshell 分别连接三台虚拟机(验证免密登录是否配置完成)。

核心组件部署(略,需完成基础环境)

  • 安装 JDK(统一版本如 JDK8,配置 JAVA_HOME 环境变量);
  • 部署 Hadoop 集群(配置 core-site.xml、hdfs-site.xml 等,启动 HDFS、YARN 服务);
  • 安装 Hive(配置 hive-site.xml,关联 Metastore,启动 HiveServer2);
  • 安装 Zookeeper 集群(配置 zoo.cfg,启动 zkServer.sh,验证集群状态)。

二、Spark 集群环境搭建(核心)

3. 部署 Flume(日志采集组件)

  • 登录 Spark03 虚拟机,执行以下命令检查 Flume 部署状态: bash

    运行

    复制代码
    # 检查 Flume 安装目录是否存在
    ll /export/servers | grep flume-1.10.1
    # 检查 Flume 环境变量配置
    cat /etc/profile | grep FLUME_HOME
  • 若目录 / 配置缺失,需解压 Flume 安装包到 /export/servers,并在 /etc/profile 中配置环境变量(FLUME_HOMEPATH),执行 source /etc/profile 生效。

4. 部署 Kafka 集群(消息队列组件)

启动 Kafka 服务(三台节点均执行)

bash

运行

复制代码
# 创建日志目录(若不存在)
mkdir -p /export/data
# 启动 Kafka 并将日志输出到指定文件(后台运行)
kafka-server-start.sh $KAFKA_HOME/config/server.properties > /export/data/kafka.log 2>&1 &
验证 Kafka 启动状态

bash

运行

复制代码
# 查看 Kafka 进程
jps | grep Kafka
# 查看日志是否有报错
tail -f /export/data/kafka.log

5. 部署 Spark 集群(核心计算框架)

启动 Spark 历史服务(Spark02 执行)

bash

运行

复制代码
# 启动历史服务(依赖 HDFS 存储日志,需确保 Hadoop 已启动)
start-history-server.sh
# 验证历史服务进程
jps | grep HistoryServer
测试 Spark 部署(Spark02 执行)

bash

运行

复制代码
# 提交 Pi 计算任务到 YARN 集群(验证 Spark 与 YARN 集成)
spark-submit --master yarn --deploy-mode client ${SPARK_HOME}/examples/src/main/python/pi.py 10
验证部署结果
  • 访问 YARN Web UI:http://192.168.121.128:8088(Spark02 的 IP),查看任务运行状态;
  • 访问 Spark 历史服务 UI:http://192.168.121.128:18080,查看任务日志。

6. 部署 Doris 集群(OLAP 分析组件)

6.1 启动 Frontend(FE,Spark01 执行)

bash

运行

复制代码
# 进入 FE 安装目录
cd /export/servers/doris-2.0.9/fe
# 后台启动 FE 服务
./bin/start_fe.sh --daemon
# 验证 FE 进程
jps | grep Frontend
6.2 启动 Backend(BE,Spark02/Spark03 分别执行)

bash

运行

复制代码
# 进入 BE 安装目录
cd /export/servers/doris-2.0.9/be
# 后台启动 BE 服务
./bin/start_be.sh --daemon
# 验证 BE 进程
jps | grep Backend
6.3 在 Frontend 中添加 Backend(Spark01 执行)

bash

运行

复制代码
# 登录 Doris FE 客户端
mysql -h Spark01 -P 9030 -u root
# 执行添加 BE 命令(替换为 Spark02/Spark03 的实际 IP)
ALTER SYSTEM ADD BACKEND "192.168.121.128:9050";
ALTER SYSTEM ADD BACKEND "192.168.121.129:9050";
# 验证 BE 状态
SHOW BACKENDS;

总结

  1. 集群搭建核心顺序:虚拟机环境 → 基础依赖(JDK/Hadoop/Zookeeper)→ 日志 / 消息组件(Flume/Kafka)→ 计算框架(Spark)→ 分析引擎(Doris);
  2. 关键验证点:每一步启动服务后,通过 jps 查进程、日志查报错、Web UI 查状态;
  3. 网络前提:确保三台虚拟机 NAT 网段互通,免密登录、环境变量配置生效。
相关推荐
鸿乃江边鸟1 天前
Spark Datafusion Comet 向量化Rust Native-- 数据写入
大数据·rust·spark·native
亚林瓜子1 天前
Spark SQL中时间戳条件约束与字符串判空
大数据·sql·spark·string·timestamp
亚林瓜子2 天前
AWS中国云中的ETL之从Amazon Glue Data Catalog搬数据到MySQL(Glue版)
python·mysql·spark·etl·aws·glue·py
【赫兹威客】浩哥2 天前
【赫兹威客】伪分布式Spark测试教程
大数据·分布式·spark
yumgpkpm2 天前
在AI语言大模型时代 Cloudera CDP(华为CMP 鲲鹏版)对自有知识的保护
人工智能·hadoop·华为·zookeeper·spark·kafka
计算机毕业编程指导师2 天前
【Python大数据选题】基于Hadoop+Spark奥运会金牌榜可视化分析系统源码 毕业设计 选题推荐 毕设选题 数据分析 机器学习 数据挖掘
大数据·hadoop·python·计算机·spark·毕业设计·奥运会金牌
【赫兹威客】浩哥3 天前
【赫兹威客】完全分布式Spark测试教程
大数据·分布式·spark
鸿乃江边鸟3 天前
Spark Datafusion Comet 向量化Rule--CometExecRule分析 规则转换分析
大数据·spark·native
Light603 天前
领码 SPARK aPaaS 前端开发体系 技术架构(最终版)
低代码·spark·前端架构·apaas·模型驱动·能力分层·上下文契约
【赫兹威客】浩哥3 天前
【赫兹威客】完全分布式Hive(on Spark)测试教程
hive·分布式·spark