SparkStreaming集群调优

一、调优

1、数据接收并行度调优

(1)多个Receiver接收Kafka的多个分区,并行地接收数据,进而提升吞吐量

(2)设置spark.streaming.blockInterval,默认是200ms推荐最小50ms,决定每个batch的RDD的分区数

(3)手工重新分区inputStream.repartition(<number of partitions>)

2、任务启动调优

(1)使用Kryo序列化机制来序列化task,可以减小task的大小,从而减少发送这些task到各个Worker节点上的Executor的时间

(2)在Standalone模式下运行Spark,可以达到更少的task启动时间

3、数据处理并行度调优

(1)很多操作都可以指定并行度,也可以调整缺省并行度spark.default.parallelism

4、数据序列化调优

(1)输入数据:默认情况下,接收到的输入数据,是存储在Executor的内存中的,使用的持久化级别是StorageLevel.MEMORY_AND_DISK_SER_2

(2)流式计算操作生成的持久化RDD:流式计算操作生成的RDD的默认持久化级别是StorageLevel.MEMORY_ONLY_SER

(3)使用Kryo时,一定要考虑注册自定义的类,并且禁用对应引用的tracking(spark.kryo.referenceTracking)

5、batch interval调优

(1)batch处理时间必须小于batch interval时间

(2)可以提高处理速度,或增大batch interval

6、内存

(1)如果想要使用一个窗口长度为10分钟的window操作,那么集群就必须有足够的内存来保存10分钟内的数据。

(2)如果想要使用updateStateByKey来维护许多key的state,那么你的内存资源就必须足够大。

(3)DStream的持久化

(4)清理旧数据

(5)CMS垃圾回收器:在spark-submit中使用--driver-java-options设置;使用spark.executor.extraJavaOptions参数设置。-XX:+UseConcMarkSweepGC

相关推荐
分布式存储与RustFS24 分钟前
Helm在Kubernetes上部署RustFS生产环境指南
分布式·零基础·picgo·对象存储·minio·rustfs
rchmin26 分钟前
Nacos配置中心避坑指南:灵活配置 server-addr 的坑
分布式·nacos·动态配置
永霖光电_UVLED1 小时前
1.6T 光模块的能效革命
大数据·人工智能·汽车·娱乐
talen_hx2961 小时前
《零基础入门Spark》学习笔记 Day 17
大数据·笔记·学习·spark
hf2000121 小时前
深入分析:Iceberg v3「删除向量(Deletion Vectors, DV)」如何缓解 CDC 场景写放大
大数据·spark·数据湖·湖仓一体·lakehouse
Elastic 中国社区官方博客2 小时前
使用 Remote Write 将 Prometheus 指标发送到 Elasticsearch
大数据·运维·elasticsearch·搜索引擎·全文检索·prometheus
nashane2 小时前
HarmonyOS 6.0 分布式相机实战:调用远端设备摄像头与AI场景识别(API 11+)
分布式·数码相机·harmonyos·harmonyos 5
小t说说2 小时前
2026年PPT生成工具评测及使用体验
大数据·前端·人工智能
IT观测3 小时前
数字化转型浪潮下的西安样本:从“摩高互动”看企业级技术服务的破局之道
大数据·人工智能
想你依然心痛3 小时前
大数据时代时序数据库选型指南:Apache IoTDB 的实战进阶与避坑法则
大数据·apache·时序数据库