SparkStreaming集群调优

一、调优

1、数据接收并行度调优

(1)多个Receiver接收Kafka的多个分区,并行地接收数据,进而提升吞吐量

(2)设置spark.streaming.blockInterval,默认是200ms推荐最小50ms,决定每个batch的RDD的分区数

(3)手工重新分区inputStream.repartition(<number of partitions>)

2、任务启动调优

(1)使用Kryo序列化机制来序列化task,可以减小task的大小,从而减少发送这些task到各个Worker节点上的Executor的时间

(2)在Standalone模式下运行Spark,可以达到更少的task启动时间

3、数据处理并行度调优

(1)很多操作都可以指定并行度,也可以调整缺省并行度spark.default.parallelism

4、数据序列化调优

(1)输入数据:默认情况下,接收到的输入数据,是存储在Executor的内存中的,使用的持久化级别是StorageLevel.MEMORY_AND_DISK_SER_2

(2)流式计算操作生成的持久化RDD:流式计算操作生成的RDD的默认持久化级别是StorageLevel.MEMORY_ONLY_SER

(3)使用Kryo时,一定要考虑注册自定义的类,并且禁用对应引用的tracking(spark.kryo.referenceTracking)

5、batch interval调优

(1)batch处理时间必须小于batch interval时间

(2)可以提高处理速度,或增大batch interval

6、内存

(1)如果想要使用一个窗口长度为10分钟的window操作,那么集群就必须有足够的内存来保存10分钟内的数据。

(2)如果想要使用updateStateByKey来维护许多key的state,那么你的内存资源就必须足够大。

(3)DStream的持久化

(4)清理旧数据

(5)CMS垃圾回收器:在spark-submit中使用--driver-java-options设置;使用spark.executor.extraJavaOptions参数设置。-XX:+UseConcMarkSweepGC

相关推荐
大树884 小时前
金刚石散热越强,管路越先见顶
大数据·运维·服务器·人工智能·ai
大志哥1235 小时前
ES和Logstash日志链路系统上线后遭遇切片爆炸(解决)
大数据·elasticsearch
果丁智能6 小时前
物联网智能锁赋能集中式住宿:身份核验与远程权限管控的全链路技术实践
大数据·人工智能·物联网·智能家居
ApacheSeaTunnel6 小时前
实战演示 | 基于 Apache SeaTunnel 与 Apache DolphinScheduler 实现 MySQL 到 Doris 离线定时增量同步
大数据·mysql·开源·doris·数据集成·seatunnel·数据同步
weixin_397574097 小时前
PDF复杂表格的1:1还原引擎:跨页表格自动拼接技术实战
大数据·人工智能·pdf
极光代码工作室7 小时前
基于数据仓库的电商数据分析平台
大数据·hadoop·python·spark·数据可视化
秋名山码民8 小时前
Graph RAG 深度解析:从向量检索到知识推理的技术演进
大数据·人工智能·rag
JLWcai202510098 小时前
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm
m0_380167148 小时前
面向开发者的Top10加密货币数据API(2026年最新)
大数据·人工智能·区块链
yyxx4121238 小时前
上海企业如何选择专业的钉钉服务商
java·大数据·人工智能·钉钉