SparkStreaming集群调优

一、调优

1、数据接收并行度调优

(1)多个Receiver接收Kafka的多个分区,并行地接收数据,进而提升吞吐量

(2)设置spark.streaming.blockInterval,默认是200ms推荐最小50ms,决定每个batch的RDD的分区数

(3)手工重新分区inputStream.repartition(<number of partitions>)

2、任务启动调优

(1)使用Kryo序列化机制来序列化task,可以减小task的大小,从而减少发送这些task到各个Worker节点上的Executor的时间

(2)在Standalone模式下运行Spark,可以达到更少的task启动时间

3、数据处理并行度调优

(1)很多操作都可以指定并行度,也可以调整缺省并行度spark.default.parallelism

4、数据序列化调优

(1)输入数据:默认情况下,接收到的输入数据,是存储在Executor的内存中的,使用的持久化级别是StorageLevel.MEMORY_AND_DISK_SER_2

(2)流式计算操作生成的持久化RDD:流式计算操作生成的RDD的默认持久化级别是StorageLevel.MEMORY_ONLY_SER

(3)使用Kryo时,一定要考虑注册自定义的类,并且禁用对应引用的tracking(spark.kryo.referenceTracking)

5、batch interval调优

(1)batch处理时间必须小于batch interval时间

(2)可以提高处理速度,或增大batch interval

6、内存

(1)如果想要使用一个窗口长度为10分钟的window操作,那么集群就必须有足够的内存来保存10分钟内的数据。

(2)如果想要使用updateStateByKey来维护许多key的state,那么你的内存资源就必须足够大。

(3)DStream的持久化

(4)清理旧数据

(5)CMS垃圾回收器:在spark-submit中使用--driver-java-options设置;使用spark.executor.extraJavaOptions参数设置。-XX:+UseConcMarkSweepGC

相关推荐
回家路上绕了弯4 分钟前
分布式事务TCC详解:高并发场景下的柔性事务最优解?
分布式·后端
阿里云大数据AI技术6 分钟前
Apache Paimon 多模态数据湖实践:从结构化到非结构化的技术演进
大数据·人工智能
字节跳动数据平台15 分钟前
评测也很酷,Data Agent 自动化评测的三层框架与实战
大数据
是阿威啊18 分钟前
【第一站】本地虚拟机部署Hadoop分布式集群
大数据·linux·hadoop·分布式
天天讯通20 分钟前
BI 报表:呼叫中心的伪刚需
大数据·前端·数据库
跨境卫士—小依24 分钟前
TikTok Shop 进化全解析,从内容驱动到品牌共建,抢占跨境新赛道
大数据·人工智能·跨境电商·亚马逊·防关联
字节跳动数据平台39 分钟前
火山引擎发布《AI时代企业数据基建升级路线图》
大数据
连线Insight1 小时前
智谱、MiniMax争夺“大模型第一股”:高增长之下各有难题
大数据·人工智能·microsoft
laozhao4321 小时前
谁的使用效果好?标标达与乙方宝的使用情况多维度解析
大数据
美狐美颜SDK开放平台1 小时前
专业直播美颜SDK如何打造?美型功能开发思路与方案分享
大数据·人工智能·音视频·美颜sdk·直播美颜sdk·视频美颜sdk