SparkStreaming集群调优

一、调优

1、数据接收并行度调优

(1)多个Receiver接收Kafka的多个分区,并行地接收数据,进而提升吞吐量

(2)设置spark.streaming.blockInterval,默认是200ms推荐最小50ms,决定每个batch的RDD的分区数

(3)手工重新分区inputStream.repartition(<number of partitions>)

2、任务启动调优

(1)使用Kryo序列化机制来序列化task,可以减小task的大小,从而减少发送这些task到各个Worker节点上的Executor的时间

(2)在Standalone模式下运行Spark,可以达到更少的task启动时间

3、数据处理并行度调优

(1)很多操作都可以指定并行度,也可以调整缺省并行度spark.default.parallelism

4、数据序列化调优

(1)输入数据:默认情况下,接收到的输入数据,是存储在Executor的内存中的,使用的持久化级别是StorageLevel.MEMORY_AND_DISK_SER_2

(2)流式计算操作生成的持久化RDD:流式计算操作生成的RDD的默认持久化级别是StorageLevel.MEMORY_ONLY_SER

(3)使用Kryo时,一定要考虑注册自定义的类,并且禁用对应引用的tracking(spark.kryo.referenceTracking)

5、batch interval调优

(1)batch处理时间必须小于batch interval时间

(2)可以提高处理速度,或增大batch interval

6、内存

(1)如果想要使用一个窗口长度为10分钟的window操作,那么集群就必须有足够的内存来保存10分钟内的数据。

(2)如果想要使用updateStateByKey来维护许多key的state,那么你的内存资源就必须足够大。

(3)DStream的持久化

(4)清理旧数据

(5)CMS垃圾回收器:在spark-submit中使用--driver-java-options设置;使用spark.executor.extraJavaOptions参数设置。-XX:+UseConcMarkSweepGC

相关推荐
Zz_waiting.4 小时前
分布式部署
分布式
美林数据Tempodata5 小时前
“双新”指引,AI驱动:工业数智应用生产性实践创新
大数据·人工智能·物联网·实践中心建设·金基地建设
人间打气筒(Ada)7 小时前
Centos7 搭建hadoop2.7.2、hbase伪分布式集群
数据库·分布式·hbase
原来是好奇心9 小时前
消息队列终极选型:RabbitMQ、RocketMQ、Kafka与ActiveMQ深度对比
分布式·kafka·rabbitmq·rocketmq·activemq·mq
com_4sapi9 小时前
2025 权威认证头部矩阵系统全景对比发布 双榜单交叉验证
大数据·c语言·人工智能·算法·矩阵·机器人
9ilk10 小时前
【仿RabbitMQ的发布订阅式消息队列】 ---- 功能测试联调
linux·服务器·c++·分布式·学习·rabbitmq
周杰伦_Jay10 小时前
【RPC:分布式跨节点透明通信协议】【Raft:简单易实现的分布式共识算法】
分布式·rpc·共识算法
鲸能云10 小时前
政策解读 | “十五五”能源规划下储能发展路径与鲸能云数字化解决方案
大数据·能源
嗝屁小孩纸11 小时前
免费测评RPC分布式博客平台(仅用云服务器支持高性能)
服务器·分布式·rpc
Alex艾力的IT数字空间11 小时前
完整事务性能瓶颈分析案例:支付系统事务雪崩优化
开发语言·数据结构·数据库·分布式·算法·中间件·php