【hadoop】Spark的安装部署

一、单机模式

步骤:

1、使用XFTP将Spark安装包spark-2.4.8-bin-hadoop2.7.tgz发送到master机器的主目录。

2、解压安装包:

复制代码
tar -zxvf ~/spark-2.4.8-bin-hadoop2.7.tgz

3、修改文件夹的名字,将其改为flume,或者创建软连接也可:

复制代码
mv ~/spark-2.4.8-bin-hadoop2.7 ~/spark

4、开箱即用;

二、Spark Standalone模式集群

步骤:

1、使用vim命令配置Spark的环境配置文件,原本应是不存在的:

复制代码
cd ~/spark/conf

vim spark-env.sh

配置内容如下(注意此处的所有路径、主机名):

复制代码
# jdk安装目录

export JAVA_HOME=/home/hadoop/jdk1.8.0_311

# Hadoop配置文件目录

export HADOOP_CONF_DIR=/home/hadoop/hadoop-2.9.2/etc/hadoop

# Hadoop根目录

export HADOOP_HOME=/home/hadoop/hadoop-2.9.2

# Web UI端口号

SPARK_MASTER_WEBUI_PORT=8888

# 配置ZooKeeper

SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,slave1:2181,slave2:2181 -Dspark.deploy.zookeeper.dir=/myspark"

修改完后保存。

2、配置slaves:

复制代码
vim slaves

添加以下内容:

复制代码
master

slave1

slave2

3、接着把配置好的Spark安装目录使用scp命令发送到其他节点:

复制代码
scp -r ~/spark hadoop@slave1:~

scp -r ~/spark hadoop@slave2:~

4、启动ZooKeeper,略;

5、在master节点上,带路径启动Spark集群:

复制代码
~/spark/sbin/start-all.sh

测试

浏览器输入:master:8888,如下:

三、Spark on YARN模式

实际上,Spark on YARN模式,即把Spark应用程序跑在YARN集群之上,通过第二节配置好Spark Standalone模式后,已经可以在任意节点上,执行spark-submit脚本把任务提交至YARN实现Spark on YARN。而区别就是使用这种方式提交任务的话,就不需要启动Spark集群了。

相关推荐
Edingbrugh.南空3 小时前
Hive集成Paimon
数据仓库·hive·hadoop
邮科摄像头定制7 小时前
邮科摄像头定制化视觉方案在安全生产中的深度应用
大数据·人工智能
Edingbrugh.南空7 小时前
Flink on YARN 部署
大数据·flink
sunxunyong8 小时前
cloudera manager 页面启动nodemanager失败,后端没有启动 8040
大数据·cloudera
weixin_422289378 小时前
【Centos7安装Cloudera Manager5.12、CDH5.12详细步骤】
大数据·cloudera
安达发9 小时前
安达发|旅游经济“爆发“!APS软件调整旅行箱生产线收割旅游市场!
大数据·人工智能·物联网·aps排产软件·智能优化排产软件·aps智能优化排程软件
Flink_China10 小时前
官宣 | Fluss 0.7 发布公告:稳定性与架构升级
大数据·flink
wenzhangli711 小时前
筑牢安全防线:电子文件元数据驱动的 AI 知识库可控管理方案
大数据·人工智能
Mikhail_G12 小时前
Python初学者入门指南
大数据·运维·开发语言·python·数据分析
小巫程序Demo日记13 小时前
Spark DAG、Stage 划分与 Task 调度底层原理深度剖析
java·spark