day1-部署集群

https://pan.quark.cn/s/dcda6d27f500

集群成品:root-123456,ip192.168.121.128-130

以下是简略步骤

大数据集群环境搭建步骤(Hadoop + Spark 核心集群)

一、Hadoop 集群环境搭建(基础依赖)

前置准备:Spark 虚拟机环境搭建

  1. 镜像包下载与解压
    • 打开资源管理器,访问 ftp://10.9.51.1,使用用户名 pz、密码 1234 下载 Spark 镜像包;
    • 将镜像包复制到 E:\自己虚拟机目录,解压并确认目录结构完整。
  2. 网络环境配置
    • 开启宿主机 vmnet8 虚拟网卡(确保网卡状态为 "启用");
    • 在 VMware 中配置 NAT 网段(建议统一网段如 192.168.121.0/24),确保三台虚拟机在同一 NAT 网段。
  3. 虚拟机导入与启动
    • 打开 VMware,导入解压后的 Spark 虚拟机镜像,导入时选择【我已移动虚拟机】;
    • 依次启动 Spark01、Spark02、Spark03 三台虚拟机;
    • 登录每台虚拟机,执行 ifconfig 查看 IP 地址(记录各节点 IP,如 Spark01:192.168.121.127、Spark02:192.168.121.128、Spark03:192.168.121.129);
    • 使用 Xshell 分别连接三台虚拟机(验证免密登录是否配置完成)。

核心组件部署(略,需完成基础环境)

  • 安装 JDK(统一版本如 JDK8,配置 JAVA_HOME 环境变量);
  • 部署 Hadoop 集群(配置 core-site.xml、hdfs-site.xml 等,启动 HDFS、YARN 服务);
  • 安装 Hive(配置 hive-site.xml,关联 Metastore,启动 HiveServer2);
  • 安装 Zookeeper 集群(配置 zoo.cfg,启动 zkServer.sh,验证集群状态)。

二、Spark 集群环境搭建(核心)

3. 部署 Flume(日志采集组件)

  • 登录 Spark03 虚拟机,执行以下命令检查 Flume 部署状态: bash

    运行

    复制代码
    # 检查 Flume 安装目录是否存在
    ll /export/servers | grep flume-1.10.1
    # 检查 Flume 环境变量配置
    cat /etc/profile | grep FLUME_HOME
  • 若目录 / 配置缺失,需解压 Flume 安装包到 /export/servers,并在 /etc/profile 中配置环境变量(FLUME_HOMEPATH),执行 source /etc/profile 生效。

4. 部署 Kafka 集群(消息队列组件)

启动 Kafka 服务(三台节点均执行)

bash

运行

复制代码
# 创建日志目录(若不存在)
mkdir -p /export/data
# 启动 Kafka 并将日志输出到指定文件(后台运行)
kafka-server-start.sh $KAFKA_HOME/config/server.properties > /export/data/kafka.log 2>&1 &
验证 Kafka 启动状态

bash

运行

复制代码
# 查看 Kafka 进程
jps | grep Kafka
# 查看日志是否有报错
tail -f /export/data/kafka.log

5. 部署 Spark 集群(核心计算框架)

启动 Spark 历史服务(Spark02 执行)

bash

运行

复制代码
# 启动历史服务(依赖 HDFS 存储日志,需确保 Hadoop 已启动)
start-history-server.sh
# 验证历史服务进程
jps | grep HistoryServer
测试 Spark 部署(Spark02 执行)

bash

运行

复制代码
# 提交 Pi 计算任务到 YARN 集群(验证 Spark 与 YARN 集成)
spark-submit --master yarn --deploy-mode client ${SPARK_HOME}/examples/src/main/python/pi.py 10
验证部署结果
  • 访问 YARN Web UI:http://192.168.121.128:8088(Spark02 的 IP),查看任务运行状态;
  • 访问 Spark 历史服务 UI:http://192.168.121.128:18080,查看任务日志。

6. 部署 Doris 集群(OLAP 分析组件)

6.1 启动 Frontend(FE,Spark01 执行)

bash

运行

复制代码
# 进入 FE 安装目录
cd /export/servers/doris-2.0.9/fe
# 后台启动 FE 服务
./bin/start_fe.sh --daemon
# 验证 FE 进程
jps | grep Frontend
6.2 启动 Backend(BE,Spark02/Spark03 分别执行)

bash

运行

复制代码
# 进入 BE 安装目录
cd /export/servers/doris-2.0.9/be
# 后台启动 BE 服务
./bin/start_be.sh --daemon
# 验证 BE 进程
jps | grep Backend
6.3 在 Frontend 中添加 Backend(Spark01 执行)

bash

运行

复制代码
# 登录 Doris FE 客户端
mysql -h Spark01 -P 9030 -u root
# 执行添加 BE 命令(替换为 Spark02/Spark03 的实际 IP)
ALTER SYSTEM ADD BACKEND "192.168.121.128:9050";
ALTER SYSTEM ADD BACKEND "192.168.121.129:9050";
# 验证 BE 状态
SHOW BACKENDS;

总结

  1. 集群搭建核心顺序:虚拟机环境 → 基础依赖(JDK/Hadoop/Zookeeper)→ 日志 / 消息组件(Flume/Kafka)→ 计算框架(Spark)→ 分析引擎(Doris);
  2. 关键验证点:每一步启动服务后,通过 jps 查进程、日志查报错、Web UI 查状态;
  3. 网络前提:确保三台虚拟机 NAT 网段互通,免密登录、环境变量配置生效。
相关推荐
叫我:松哥6 小时前
基于大数据和深度学习的智能空气质量监测与预测平台,采用Spark数据预处理,利用TensorFlow构建LSTM深度学习模型
大数据·python·深度学习·机器学习·spark·flask·lstm
火龙谷1 天前
day3-构建数仓
spark
阿里云大数据AI技术2 天前
迅雷基于阿里云 EMR Serverless Spark 实现数仓资源效率与业务提升
spark
伟大的大威2 天前
在 NVIDIA DGX Spark部署 Stable Diffusion 3.5 并使用ComfyUI
stable diffusion·spark·comfyui
叫我:松哥2 天前
基于Spark智能推荐算法的农业作物推荐系统,推荐算法使用Spark ML风格推荐引擎
大数据·python·机器学习·spark-ml·spark·flask·推荐算法
是阿威啊2 天前
【用户行为归因分析项目】- 【企业级项目开发第五站】数据采集并加载到hive表
大数据·数据仓库·hive·hadoop·spark·scala
云器科技3 天前
告别Spark?大数据架构的十字路口与技术抉择
大数据·架构·spark·lakehouse·数据湖仓
云器科技3 天前
云器Lakehouse2025年03月版本发布:打造更强大、更智能、更安全的数据管理新体验
大数据·数据库·架构·spark·lakehouse
会编程的李较瘦4 天前
【期末考试总结】spark课程知识点
大数据·单例模式·spark