Spark的原理以及使用

一、spark集群的常见操作

启动spark集群

需要在各节点上首先启动zookeeper

zkServer.sh start

1、在主节点node1上spark目录下的sbin目录

2、执行./start-all.sh

3、使用jps和8080端口可以检查集群是否启动成功 http://node1:8080/

node1是Master,node1/node2/node3启动Worker进程

4、进入spark-shell查看是否正常

二、在Spark集群上提交应用

1、本地执行

val conf = new SparkConf().setAppName("TopN").setMaster("local");

val sc = new SparkContext(conf);

2、Idea提交集群执行

val conf = new SparkConf().setAppName("WordCount")

.setMaster("spark://node1:7077");

val sc = new SparkContext(conf);

sc.addJar("c:\\spark-wordcount-scala.jar"); // spark-submmit 集群上提交时,需要注释该行

val linesRdd = sc.textFile("hdfs://node1:9000/test/README.txt");

3、集群上执行

(1)在spark上执行

打包jar,只包含spark程序类,不要包含所有依赖类

#spark自己管理资源 Master:8080

#集群的各个节点都需要能访问到jar

各个节点都存在 /usr/local/spark-wordcount-scala.jar

/usr/local/spark/bin/spark-submit \

--class com.aaa.spark.WordCountSpark \

--master spark://node10:7077 \

--driver-memory 5a00m \

--executor-memory 500m \

--executor-cores 1 \

/usr/local/spark-wordcount-scala.jar

(2)、在yarn上执行

#yarn调度资源 RM:8088

/usr/local/spark/bin/spark-submit \

--class com.aaa.spark.WordCount \

--master yarn-cluster/yarn-client \

--num-executors 3 \

--driver-memory 500m \

--executor-memory 500m \

--executor-cores 3 \

/usr/local/spark/spark.jar

三、Spark集群的原理

1、spark的基本组件

Driver

Master

worker

Executor

Task

spark的每个CPU可创建2到4个分区

2、Spark的四种RDD操作

(1)transformation:转换,根据已有的RDD创建一个新的RDD

map

filter

flatMap

spark:groupByKey

spark:reduceByKey

sortByKey

join

cogroup

(2)action:行动,对RDD进行最后的操作

reduce

collect

count:元素的总个数

take(n)

top

saveAsTextFile

countByKey:各个Key的value的次数,MapKey,次数

countByValue:各个元素分别出现的次数,Map元素,次数

foreach 存储RDD到文件或数据库中,将操作结果转换为集合

action执行会自动执行之前的所有transformation操作

(3)集合类操作

creation:创建,两种方式创建RDD,一是集合,二是外部文件

(4)控制类

control:控制,RDD的持久化,放入缓存或磁盘

3、DAGScheduler划分stage算法

执行Action操作时,对该RDD创建一个stage

往前推,遇到宽依赖,再创建一个stage

相关推荐
财经资讯数据_灵砚智能1 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年6月8日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
计算机安禾3 分钟前
【数据库系统原理】第10篇:SQL高级查询机制:嵌套子查询与相关子查询的执行窥探
大数据·数据库·sql
数据分析能量站3 分钟前
Anthropic关于AI的看法:人类研发正在快速边缘化
大数据·人工智能
鼎讯信通10 分钟前
从“盲挖”到“精准敲击”:能源管网维护的一种新思路
大数据·网络·能源
todoitbo20 分钟前
Agent_Swarm_分布式协作的通信编排与节点发现机制分析
人工智能·分布式·ai·jiuwenswarm
SEO_juper29 分钟前
2026 谷歌 GEO 免费工具全解:从监测、检测到内容创作,一站式指南
大数据·工具·外贸·geo·独立站·跨境电商独立站·谷歌优化
财经资讯数据_灵砚智能31 分钟前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月7日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
LedgerNinja34 分钟前
WEEX Labs 周度观察:从“通用对话”到“自主执行”,AI 产业进入价格战与规范发展并行的下半场
大数据·人工智能·物联网
FII工业富联科技服务36 分钟前
智慧园区统一运营平台技术架构解析:全景3D世界模型+视频AI+物联网闭环实践
大数据·人工智能·物联网·3d·ai·制造
YangYang9YangYan38 分钟前
2026数据分析对报考大数据专业的价值分析
大数据·数据挖掘·数据分析·高考