【Linux】-Spark分布式内存计算集群部署[20]

注意:

本节的操作,需要前置准备好Hadoop生态集群,请先部署好Hadoop环境

简介

Spark是一款分布式内存计算引擎,可以支持海量数据的分布式计算。

Spark在大数据体系是明星产品,作为最新一代的综合计算引擎,支持离线计算和实时计算。

在大数据邻域广泛应用,是目前世界上使用最多的大数据分布式计算引擎。

将基于前面构建的Hadoop集群,部署Spark Standalone集群

安装

1、【node1执行】 下载并解压

下载

复制代码
wget https://archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz

解压到文件夹/expoet/server中

复制代码
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /export/server

构建软链接

复制代码
ln -s /export/server/spark-2.4.5-bin-hadoop2.7 /export/server/spark

2、【node1执行】 修改配置文件名称

复制代码
# 改名
cd /export/server/spark/conf
mv spark-env.sh.template spark-env.sh
mv slaves.template slaves

3、【node1执行】修改配置文件,spark-env.sh

复制代码
## 设置JAVA安装目录
JAVA_HOME=/export/server/jdk

## HADOOP软件配置文件目录,读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop/etc/hadoop

## 指定spark老大master的ip和提交任务的通信端口
export SPARK_MASTER_HOST=node1
export SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g

4、【node1执行】 修改配置文件,slaver

复制代码
node1
node2
node3

5、【node1执行】分发到node2、node3

复制代码
scp -r spark-2.4.5-bin-hadoop2.7 node2:$PWD
scp -r spark-2.4.5-bin-hadoop2.7 node3:$PWD

6、【node2、node3】构建软链接

复制代码
ln -s /export/server/spark-2.4.5-bin-hadoop2.7 /export/server/spark

7、【node1】 启动spark集群

复制代码
/export/server/spark/sbin/start-all.sh

如需停止,执行下列代码

复制代码
/export/server/spark/sbin/stop-all.sh

8、打开spark监控页面,浏览器打开:http://node1:8081

至此、spark集群就部署完毕啦。

相关推荐
麦兜*13 小时前
深入解析现代分布式事务架构:基于Seata Saga模式与TCC模式实现金融级高可用与数据最终一致性的工程实践全解析
分布式·金融·架构
難釋懷13 小时前
分布式锁-redission功能介绍
分布式
only-qi16 小时前
微服务场景下,如何实现分布式事务来保证一致性?
分布式·微服务·架构
m0_5648768417 小时前
Distributed data parallel (DDP)分布式训练
分布式
BYSJMG19 小时前
计算机毕设选题推荐:基于Hadoop的交通事故数据可视化分析系统
大数据·vue.js·hadoop·分布式·后端·信息可视化·课程设计
野犬寒鸦19 小时前
从零起步学习并发编程 || 第三章:JMM(Java内存模型)详解及对比剖析
java·服务器·开发语言·分布式·后端·学习·spring
虫小宝20 小时前
查券返利机器人的异步任务调度:Java XXL-Job+Redis实现海量查券请求的分布式任务分发
java·redis·分布式
yq1982043011561 天前
构建高可用资源导航平台:基于Django+Scrapy的分布式架构实践
分布式·scrapy·django
你这个代码我看不懂1 天前
Kafka常见问题解答
分布式·kafka
Tony Bai1 天前
Git 即数据库:Beads (bd) —— 专为 AI Agent 打造的分布式任务追踪引擎
数据库·人工智能·分布式·git