【Spark】What is the difference between Input and Shuffle Read

Spark调参过程中

保持每个task的 input + shuffle read 量在300-500M左右比较合适

The Spark UI is documented here: https://spark.apache.org/docs/3.0.1/web-ui.html

The relevant paragraph reads:

  • Input: Bytes read from storage in this stage
  • Output: Bytes written in storage in this stage
  • Shuffle read: Total shuffle bytes and records read, includes both data read locally and data read from remote executors
  • Shuffle write: Bytes and records written to disk in order to be read by a shuffle in a future stage
相关推荐
蘑菇蘑菇不会开花~1 小时前
分布式Redis(14)哈希槽
redis·分布式·哈希算法
问道飞鱼2 小时前
分布式中间件-Pika一个高效的分布式缓存组件
分布式·缓存·中间件
小宋10213 小时前
玩转RabbitMQ声明队列交换机、消息转换器
服务器·分布式·rabbitmq
懒洋洋的华3699 小时前
消息队列-Kafka(概念篇)
分布式·中间件·kafka
March€9 小时前
分布式事务的基本实现
分布式
DieSnowK11 小时前
[Redis][环境配置]详细讲解
数据库·redis·分布式·缓存·环境配置·新手向·详细讲解
Lill_bin12 小时前
深入理解ElasticSearch集群:架构、高可用性与数据一致性
大数据·分布式·elasticsearch·搜索引擎·zookeeper·架构·全文检索
涛思数据(TDengine)12 小时前
TDengine 与 SCADA 强强联合:提升工业数据管理的效率与精准
大数据·时序数据库·tdengine
isNotNullX13 小时前
如何用SQL Server和Oracle进行数据同步?
大数据·数据库·sql·oracle
RwTo14 小时前
Elasticsearch 聚合搜索
大数据·elasticsearch·搜索引擎·全文检索