目录

数据建设实践之大数平台(六)安装spark

安装spark

上传安装包到/opt/software目录并解压

bash 复制代码
[bigdata@node101 software]$ tar -xvf spark-3.3.1-bin-hadoop3.tgz -C /opt/services/ 
[bigdata@node101 software]$ tar -xvf spark-3.3.1-bin-without-hadoop.tgz -C /opt/services/ 

重命名文件

bash 复制代码
[bigdata@node101 services]$ mv spark-3.3.1-bin-hadoop3 spark-3.3.1 

配置环境变量

bash 复制代码
[bigdata@node101 ~]$ sudo vim /etc/profile.d/bigdata_env.sh 
bash 复制代码
export SPARK_HOME=/opt/services/spark-3.3.1
export PATH=$PATH:$JAVA_HOME/bin:$ZK_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$SPARK_HOME/bin

分发环境变量

bash 复制代码
[bigdata@node101 ~]$ sudo ./bin/xsync /etc/profile.d/bigdata_env.sh 

刷新环境变量,5台机器上执行

bash 复制代码
[bigdata@node101 ~]$ source /etc/profile 

配置spark-env.sh

bash 复制代码
export SPARK_DIST_CLASSPATH=$(hadoop classpath)
export SPARK_HISTORY_OPTS=" 
-Dspark.history.ui.port=18080  
-Dspark.history.fs.logDirectory=hdfs://mycluster:8020/spark-history  
-Dspark.history.retainedApplications=30"

配置spark-defaults.conf

bash 复制代码
[bigdata@node101 conf]$ cp spark-defaults.conf.template  spark-defaults.conf
bash 复制代码
spark.master                       yarn
spark.eventLog.enabled             true
spark.eventLog.dir                 hdfs://mycluster:8020/spark-history
spark.serializer                   org.apache.spark.serializer.KryoSerializer
#启动动态分配
spark.dynamicAllocation.enabled    true
#启用Spark shuffle服务
spark.shuffle.service.enabled    true
#Executor个数初始值
spark.dynamicAllocation.initialExecutors    1
#Executor个数最小值
spark.dynamicAllocation.minExecutors    1
#Executor个数最大值
spark.dynamicAllocation.maxExecutors    6
#Executor空闲时长,若某Executor空闲时间超过此值,则会被关闭
spark.dynamicAllocation.executorIdleTimeout    60s
#积压任务等待时长,若有Task等待时间超过此值,则申请启动新的Executor
spark.dynamicAllocation.schedulerBacklogTimeout    1s
#spark shuffle老版本协议
#spark.shuffle.useOldFetchProtocol true
spark.yarn.historyServer.address=node101:18080
spark.history.ui.port=18080
spark.history.fs.logDirectory=hdfs://mycluster:8020/spark-history

hdfs上创建日志文件

bash 复制代码
[bigdata@node101 conf]$ hdfs dfs -mkdir /spark-history

上传spark-defaults.conf到hive目录下

bash 复制代码
[bigdata@node101 conf]$cp $SPARK_HOME/conf/spark-defaults.conf $HIVE_HOME/conf/

上传hive-exec-3.1.3.jar到纯净版

bash 复制代码
[bigdata@node101 conf]$cp $HIVE_HOME/lib/hive-exec-3.1.3.jar /opt/services/spark-3.3.1-bin-without-hadoop/jars/ 

上传spark-3.3.1-yarn-shuffle.jar

bash 复制代码
[bigdata@node101 conf]$ cp $SPARK_HOME/yarn/spark-3.3.1-yarn-shuffle.jar  /opt/services/hadoop-3.3.5/share/hadoop/yarn/lib/

上传spark jar包到hdfs

bash 复制代码
[bigdata@node101 spark-3.3.1-bin-without-hadoop]$ hdfs dfs -mkdir /spark-jars          
 
[bigdata@node101 spark-3.3.1-bin-without-hadoop]$ hdfs dfs -put ./jars/* /spark-jars

启动历史服务

bash 复制代码
[bigdata@node101 spark-3.3.1]$ sbin/start-history-server.sh 
本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
你觉得2054 小时前
哈尔滨工业大学DeepSeek公开课:探索大模型原理、技术与应用从GPT到DeepSeek|附视频与讲义下载方法
大数据·人工智能·python·gpt·学习·机器学习·aigc
啊喜拔牙4 小时前
1. hadoop 集群的常用命令
java·大数据·开发语言·python·scala
别惊鹊4 小时前
MapReduce工作原理
大数据·mapreduce
8K超高清4 小时前
中国8K摄像机:科技赋能文化传承新图景
大数据·人工智能·科技·物联网·智能硬件
2401_871290585 小时前
MapReduce 的工作原理
大数据·mapreduce
SelectDB技术团队6 小时前
Apache Doris 2025 Roadmap:构建 GenAI 时代实时高效统一的数据底座
大数据·数据库·数据仓库·人工智能·ai·数据分析·湖仓一体
你觉得2057 小时前
浙江大学朱霖潮研究员:《人工智能重塑科学与工程研究》以蛋白质结构预测为例|附PPT下载方法
大数据·人工智能·机器学习·ai·云计算·aigc·powerpoint
益莱储中国7 小时前
世界通信大会、嵌入式展及慕尼黑上海光博会亮点回顾
大数据
Loving_enjoy8 小时前
基于Hadoop的明星社交媒体影响力数据挖掘平台:设计与实现
大数据·hadoop·数据挖掘
浮尘笔记8 小时前
go-zero使用elasticsearch踩坑记:时间存储和展示问题
大数据·elasticsearch·golang·go