Spark:背压机制

Spark1.5以前版本,用户如果想要限制Receiver的数据接收速率,可以通过设置静态配置参数"spark.streaming.receiver.maxRate"的值来实现,此举虽然可以通过限制接收速率,来适配当前的处理能力,防止内存溢出,但也会引入其他问题,比如:producer数据生产高于maxRate,当前集群处理能力也高于maxRate,这就会造成资源利用率下降等问题。

为了更好的协调数据接收速率与资源处理能力,1.5版本开始SparkStreaming可以动态控制数据接收速率来适配集群数据处理能力,背压机制(Spark Streaming Backpressure):根据JobScheduler反馈作业的执行信息来动态调整Receiver数据接收率

通过属性"spark.streaming.backpressure.enabled"来控制是否启用backpressure机制,默认值false,即不启用

相关推荐
二进制_博客7 分钟前
Flink学习连载第二篇-使用flink编写WordCount(多种情况演示)
大数据
hong16168833 分钟前
大数据技术Kafka详解:消息队列(Messages Queue)
大数据·分布式·kafka
lisacumt1 小时前
【spark】pycharm 内使用pyspark连接有kerberos集群执行sql
python·pycharm·spark
eternal19952 小时前
优化算法|基于Deep-Q-Network(DQN)的邻域搜索算法求解分布式柔性作业车间调度问题
分布式·算法
心死翼未伤2 小时前
python从入门到精通:pyspark实战分析
开发语言·数据结构·python·spark·json
呼啦啦啦啦啦啦啦啦4 小时前
【Rabbitmq篇】RabbitMQ⾼级特性----持久性,发送⽅确认,重试机制
分布式·rabbitmq
PersistJiao10 小时前
Spark RDD sortBy算子执行时进行数据 “采样”是什么意思?
spark·sortby·rangepartition
꧁薄暮꧂10 小时前
kafka是如何做到高效读写
分布式·kafka
隔着天花板看星星10 小时前
Kafka-创建topic源码
大数据·分布式·中间件·kafka
goTsHgo10 小时前
在Spark Streaming中简单实现实时用户画像系统
大数据·分布式·spark