如何搭建spark yarn模式集群的集群

以下是搭建 Spark YARN 模式集群的一般步骤:

准备工作

  • 确保集群中各节点已安装并配置好 Java 环境,且版本符合 Spark 要求。
  • 规划好集群中节点的角色,如 Master 节点、Worker 节点等,并确保各节点之间网络畅通,能相互访问。

安装 Hadoop

配置 Spark on YARN

  • 下载适合你系统的 Hadoop 版本,解压到指定目录。
  • 配置 Hadoop 的核心配置文件,如core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml,设置相关参数,如文件系统路径、资源分配等。
  • 格式化 Hadoop 文件系统(通常在 Master 节点上执行):hdfs namenode -format
  • 启动 Hadoop 集群,包括 NameNode、DataNode、ResourceManager 和 NodeManager 等服务。

安装 Spark

  • 下载 Spark 安装包,解压到集群各节点的指定目录。
  • 进入 Spark 的配置目录,复制spark-env.sh.templatespark-env.sh,并进行编辑,设置以下环境变量:
    • export JAVA_HOME=/path/to/java(替换为实际的 Java 安装路径)
    • export HADOOP_CONF_DIR=/path/to/hadoop/conf(Hadoop 配置文件目录)
    • 可以根据需要设置其他参数,如SPARK_MEM等。
  • 同样在配置目录下,复制slaves.templateslaves,在slaves文件中列出所有 Worker 节点的主机名或 IP 地址,每行一个。
  • 编辑spark-defaults.conf文件,添加或修改以下配置:
    • spark.master yarn:指定 Spark 运行在 YARN 模式下。
    • spark.submit.deployMode cluster:设置提交模式为集群模式。
    • 还可以配置其他参数,如spark.executor.memoryspark.executor.cores等,以调整资源分配。

启动 Spark 集群

  • 在 Master 节点上,使用以下命令提交一个 Spark 示例应用程序来测试集群是否正常运行:
bash 复制代码
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
/path/to/spark-examples.jar \
[parameters]
  • 其中,/path/to/spark-examples.jar是 Spark 示例应用程序的路径,[parameters]是应用程序所需的参数。

验证集群

  • 可以通过 Hadoop 的 YARN Web 界面(通常在http://resourcemanager-host:8088)查看应用程序的运行状态和资源使用情况。
  • 也可以通过 Spark 的 Web 界面(通常在http://master-host:4040,如果是集群模式,可能在 YARN 的应用程序页面中找到 Spark 的 Web UI 链接)查看 Spark 应用程序的详细信息,如执行计划、任务进度等。
相关推荐
KmSH8umpK1 小时前
Redis分布式锁从原生手写到Redisson高阶落地,附线上死锁复盘优化方案进阶第八篇
数据库·redis·分布式
TDengine (老段)2 小时前
从施工监测到运营预警,桥科院用 TDengine 提升桥梁数据管理能力
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
宁波鹿语心理2 小时前
无条件的在场:一项极简亲子依恋修复练习的机制分析与实证观察
大数据
KmSH8umpK4 小时前
Redis分布式锁从原生手写到Redisson高阶落地,附线上死锁复盘优化方案进阶第七篇
数据库·redis·分布式
_F_y9 小时前
仿RabbitMQ实现消息队列-服务端核心模块实现(4)
分布式·rabbitmq
lizhihai_999 小时前
股市学习心得—半导体12种核心材料
大数据·人工智能·学习
ZGi.ai9 小时前
智能客服系统设计:从工单分类到自动派单的工程实现
大数据·人工智能·分类
PaperData10 小时前
2000-2023年地级市数字基础设施评价指标体系
大数据·网络·数据库·人工智能·数据分析·经管
Blockchain Learning10 小时前
去中心化身份(DID)模型解析:区块链如何重塑身份管理?
大数据·去中心化·区块链
xcbrand10 小时前
政府事业机构品牌策划公司哪家可靠
大数据·人工智能·python