如何搭建spark yarn模式集群的集群

以下是搭建 Spark YARN 模式集群的一般步骤:

准备工作

  • 确保集群中各节点已安装并配置好 Java 环境,且版本符合 Spark 要求。
  • 规划好集群中节点的角色,如 Master 节点、Worker 节点等,并确保各节点之间网络畅通,能相互访问。

安装 Hadoop

配置 Spark on YARN

  • 下载适合你系统的 Hadoop 版本,解压到指定目录。
  • 配置 Hadoop 的核心配置文件,如core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml,设置相关参数,如文件系统路径、资源分配等。
  • 格式化 Hadoop 文件系统(通常在 Master 节点上执行):hdfs namenode -format
  • 启动 Hadoop 集群,包括 NameNode、DataNode、ResourceManager 和 NodeManager 等服务。

安装 Spark

  • 下载 Spark 安装包,解压到集群各节点的指定目录。
  • 进入 Spark 的配置目录,复制spark-env.sh.templatespark-env.sh,并进行编辑,设置以下环境变量:
    • export JAVA_HOME=/path/to/java(替换为实际的 Java 安装路径)
    • export HADOOP_CONF_DIR=/path/to/hadoop/conf(Hadoop 配置文件目录)
    • 可以根据需要设置其他参数,如SPARK_MEM等。
  • 同样在配置目录下,复制slaves.templateslaves,在slaves文件中列出所有 Worker 节点的主机名或 IP 地址,每行一个。
  • 编辑spark-defaults.conf文件,添加或修改以下配置:
    • spark.master yarn:指定 Spark 运行在 YARN 模式下。
    • spark.submit.deployMode cluster:设置提交模式为集群模式。
    • 还可以配置其他参数,如spark.executor.memoryspark.executor.cores等,以调整资源分配。

启动 Spark 集群

  • 在 Master 节点上,使用以下命令提交一个 Spark 示例应用程序来测试集群是否正常运行:
bash 复制代码
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
/path/to/spark-examples.jar \
[parameters]
  • 其中,/path/to/spark-examples.jar是 Spark 示例应用程序的路径,[parameters]是应用程序所需的参数。

验证集群

  • 可以通过 Hadoop 的 YARN Web 界面(通常在http://resourcemanager-host:8088)查看应用程序的运行状态和资源使用情况。
  • 也可以通过 Spark 的 Web 界面(通常在http://master-host:4040,如果是集群模式,可能在 YARN 的应用程序页面中找到 Spark 的 Web UI 链接)查看 Spark 应用程序的详细信息,如执行计划、任务进度等。
相关推荐
AAA小肥杨3 小时前
基于k8s的Python的分布式深度学习训练平台搭建简单实践
人工智能·分布式·python·ai·kubernetes·gpu
爬山算法6 小时前
Redis(73)如何处理Redis分布式锁的死锁问题?
数据库·redis·分布式
IT小哥哥呀6 小时前
电池制造行业数字化实施
大数据·制造·智能制造·数字化·mom·电池·信息化
Xi xi xi6 小时前
苏州唯理科技近期也正式发布了国内首款神经腕带产品
大数据·人工智能·经验分享·科技
yumgpkpm7 小时前
华为鲲鹏 Aarch64 环境下多 Oracle 、mysql数据库汇聚到Cloudera CDP7.3操作指南
大数据·数据库·mysql·华为·oracle·kafka·cloudera
祈祷苍天赐我java之术7 小时前
Redis 数据类型与使用场景
java·开发语言·前端·redis·分布式·spring·bootstrap
UMI赋能企业8 小时前
制造业流程自动化提升生产力的全面分析
大数据·人工智能
TDengine (老段)8 小时前
TDengine 数学函数 FLOOR 用户手册
大数据·数据库·物联网·时序数据库·iot·tdengine·涛思数据
猫林老师10 小时前
HarmonyOS线程模型与性能优化实战
数据库·分布式·harmonyos
派可数据BI可视化10 小时前
商业智能BI 浅谈数据孤岛和数据分析的发展
大数据·数据库·数据仓库·信息可视化·数据挖掘·数据分析