分布式内存计算Spark环境部署与分布式内存计算Flink环境部署

目录

分布式内存计算Spark环境部署

[1. 简介](#1. 简介)

[2. 安装](#2. 安装)

2.1【node1执行】下载并解压

2.2【node1执行】修改配置文件名称

2.3【node1执行】修改配置文件,spark-env.sh

[2.4 【node1执行】修改配置文件,slaves](#2.4 【node1执行】修改配置文件,slaves)

2.5【node1执行】分发

2.6【node2、node3执行】设置软链接

2.7【node1执行】启动Spark集群

[2.8 打开Spark监控页面,浏览器打开:](#2.8 打开Spark监控页面,浏览器打开:)

2.9【node1执行】提交测试任务

分布式内存计算Flink环境部署

[1. 简介](#1. 简介)

[2. 安装](#2. 安装)

2.1【node1操作】下载安装包

[2. 2【node1操作】修改配置文件,conf/flink-conf.yaml](#2. 2【node1操作】修改配置文件,conf/flink-conf.yaml)

[2.3 【node1操作】,修改配置文件,conf/slaves](#2.3 【node1操作】,修改配置文件,conf/slaves)

2.4【node1操作】分发Flink安装包到其它机器

[2.5 【node2、node3操作】](#2.5 【node2、node3操作】)

[2.6 【node1操作】,启动Flink](#2.6 【node1操作】,启动Flink)

[2.7 验证Flink启动](#2.7 验证Flink启动)

[2.8 提交测试任务](#2.8 提交测试任务)


注意:

本小节的操作,基于:大数据集群(Hadoop生态)安装部署环节中所构建的Hadoop集群,如果没有Hadoop集群,请参阅前置内容,部署好环境。

大数据集群(Hadoop生态)安装部署:

大数据集群(Hadoop生态)安装部署_时光の尘的博客-CSDN博客

大数据NoSQL数据库HBase集群部署:

大数据NoSQL数据库HBase集群部署-CSDN博客

分布式内存计算Spark环境部署

1. 简介

Spark是一款分布式内存计算引擎,可以支撑海量数据的分布式计算。

Spark在大数据体系是明星产品,作为最新一代的综合计算引擎,支持离线计算和实时计算。

在大数据领域广泛应用,是目前世界上使用最多的大数据分布式计算引擎。

我们将基于前面构建的Hadoop集群,部署Spark Standalone集群。

2. 安装

2.1【node1执行】下载并解压

复制代码
wget https: / archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz

# 解压
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /export/server/

# 软链接
ln -s /export/server/spark-2.4.5-bin-hadoop2.7 /export/server/spark

2.2【node1执行】修改配置文件名称

复制代码
# 改名
cd /export/server/spark/conf
mv spark-env.sh.template spark-env.sh
mv slaves.template slaves

2.3【node1执行】修改配置文件,spark-env.sh

复制代码
#设置JAVA安装目录
JAVA_HOME=/export/server/jdk

#HADOOP软件配置文件目录,读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/export/server/hadoop/etc/hadoop
YARN_CONF_DIR=/export/server/hadoop/etc/hadoop

#指定spark老大Master的IP和提交任务的通信端口
export SPARK_MASTER_HOST=node1
export SPARK_MASTER_PORT=7077

SPARK_MASTER_WEBUI_PORT=8080
SPARK_WORKER_CORES=1
SPARK_WORKER_MEMORY=1g

2.4 【node1执行】修改配置文件,slaves

复制代码
node1
node2
node3

2.5【node1执行】分发

复制代码
scp -r spark-2.4.5-bin-hadoop2.7 node2:$PWD
scp -r spark-2.4.5-bin-hadoop2.7 node3:$PWD

2.6【node2、node3执行】设置软链接

复制代码
 ln -s /export/server/spark-2.4.5-bin-hadoop2.7 /export/server/spark

2.7【node1执行】启动Spark集群

复制代码
/export/server/spark/sbin/start-all.sh

# 如需停止,可以
/export/server/spark/sbin/stop-all.sh

2.8 打开Spark监控页面,浏览器打开:

http://node1:8081

2.9【node1执行】提交测试任务

复制代码
/export/server/spark/bin/spark-submit --master
spark: / node1:7077 - class
org.apache.spark.examples.SparkPi
/export/server/spark/examples/jars/spark-examples_2.11-2.4.5.jar

分布式内存计算Flink环境部署

1. 简介

Flink同Spark一样,是一款分布式内存计算引擎,可以支撑海量数据的分布式计算。

Flink在大数据体系同样是明星产品,作为最新一代的综合计算引擎,支持离线计算和实时计算。

在大数据领域广泛应用,是目前世界上除去Spark以外,应用最为广泛的分布式计算引擎。

我们将基于前面构建的Hadoop集群,部署Flink Standalone集群

Spark更加偏向于离线计算而Flink更加偏向于实时计算。

2. 安装

2.1【node1操作】下载安装包

复制代码
wget https: / archive.apache.org/dist/flink/flink-1.10.0/flink-1.10.0-bin-scala_2.11.tgz

# 解压
tar -zxvf flink-1.10.0-bin-scala_2.11.tgz -C
/export/server/

# 软链接
ln -s /export/server/flink-1.10.0
/export/server/flink
复制代码
# jobManager 的IP地址
jobmanager.rpc.address: node1
# JobManager 的端口号
jobmanager.rpc.port: 6123
# JobManager JVM heap 内存大小
jobmanager.heap.size: 1024m
# TaskManager JVM heap 内存大小
taskmanager.heap.size: 1024m
# 每个 TaskManager 提供的任务 slots 数量大小
taskmanager.numberOfTaskSlots: 2

#是否进行预分配内存,默认不进行预分配,这样在我们不使用flink集群时候不会占用集群资源
taskmanager.memory.preallocate: false
# 程序默认并行计算的个数
parallelism.default: 1
#JobManager的Web界面的端口(默认:8081)
jobmanager.web.port: 8081

2.3 【node1操作】,修改配置文件,conf/slaves

复制代码
node1
node2
node3

2.4【node1操作】分发Flink安装包到其它机器

复制代码
cd /export/server
scp -r flink-1.10.0 node2:`pwd`/
scp -r flink-1.10.0 node3:`pwd`/

2.5 【node2、node3操作】

复制代码
# 配置软链接
ln -s /export/server/flink-1.10.0
/export/server/flink
复制代码
/export/server/flink/bin/start-cluster.sh

2.7 验证Flink启动

复制代码
# 浏览器打开
http://node1:8081

2.8 提交测试任务

【node1执行】

复制代码
/export/server/flink/bin/flink run
/export/server/flink-1.10.0/examples/batch/WordCount.jar

更多环境部署:

MySQL5.7版本与8.0版本在CentOS系统安装:

MySQL5.7版本与8.0版本在CentOS系统安装_时光の尘的博客-CSDN博客
MySQL5.7版本与8.0版本在Ubuntu(WSL环境)系统安装:

MySQL5.7版本与8.0版本在Ubuntu(WSL环境)系统安装-CSDN博客
Tomcat在CentOS上的安装部署:

Tomcat在CentOS上的安装部署-CSDN博客
Nginx在CentOS上的安装部署、RabbitMQ在CentOS上安装部署:

Nginx在CentOS上的安装部署、RabbitMQ在CentOS上安装部署-CSDN博客
集群化环境前置准备:

集群化环境前置准备_时光の尘的博客-CSDN博客
Zookeeper集群安装部署、Kafka集群安装部署:

Zookeeper集群安装部署、Kafka集群安装部署_时光の尘的博客-CSDN博客

相关推荐
RFID科技的魅力11 分钟前
RFID资产管理系统选型避坑指南:从需求梳理到落地验证
大数据·人工智能·物联网·rfid
小猴子下山1231 小时前
2026年无锡细胞存储市场格局观察:四家企业的传承脉络与业务分野
大数据·人工智能·精选
2503_931712482 小时前
中小学课桌椅/报告厅座椅/大学教室桌椅/校园课桌椅/高校阶梯教室排椅公司优选
大数据
蓝速科技2 小时前
蓝速科技三色灯光会议预约门牌深度评测
大数据·人工智能·科技
QiLinkOS4 小时前
第三视觉理解徐玉生与他的商业活动(28)
大数据·c++·人工智能·算法·开源协议
2401_859506244 小时前
AIGC赋能大漆摆件设计:从痛点分析到技术架构与实战验证
java·大数据·人工智能
堆焊工艺分享4 小时前
2026-2030工业堆焊行业发展趋势:从维修辅业到智造核心工艺
大数据·人工智能
Evand J5 小时前
【论文复现】MATLAB例程,存在测距误差的WSN无锚点分布式自定位,《WSN中存在测距误差的无锚点分布式自定位方法》
开发语言·分布式·matlab·定位·导航·wsn
littlebigbar5 小时前
功能测试中的“精准打击“:避免大而全的实用策略 (2)
大数据
Geeys5 小时前
淘宝电商运营新手入门完整教程|零基础开店引流
大数据·网络·人工智能