SparkStreaming集群调优

杰克逊的日记2025-01-06 14:28

（1）多个Receiver接收Kafka的多个分区，并行地接收数据，进而提升吞吐量

（2）设置spark.streaming.blockInterval，默认是200ms推荐最小50ms，决定每个batch的RDD的分区数

（3）手工重新分区inputStream.repartition(<number of partitions>)

（1）使用Kryo序列化机制来序列化task，可以减小task的大小，从而减少发送这些task到各个Worker节点上的Executor的时间

（2）在Standalone模式下运行Spark，可以达到更少的task启动时间

（1）很多操作都可以指定并行度，也可以调整缺省并行度spark.default.parallelism

（1）输入数据：默认情况下，接收到的输入数据，是存储在Executor的内存中的，使用的持久化级别是StorageLevel.MEMORY_AND_DISK_SER_2

（2）流式计算操作生成的持久化RDD：流式计算操作生成的RDD的默认持久化级别是StorageLevel.MEMORY_ONLY_SER

（3）使用Kryo时，一定要考虑注册自定义的类，并且禁用对应引用的tracking（spark.kryo.referenceTracking）

（1）batch处理时间必须小于batch interval时间

（2）可以提高处理速度，或增大batch interval

（1）如果想要使用一个窗口长度为10分钟的window操作，那么集群就必须有足够的内存来保存10分钟内的数据。

（2）如果想要使用updateStateByKey来维护许多key的state，那么你的内存资源就必须足够大。

（3）DStream的持久化

（4）清理旧数据

（5）CMS垃圾回收器：在spark-submit中使用--driver-java-options设置；使用spark.executor.extraJavaOptions参数设置。-XX:+UseConcMarkSweepGC