【Spark】What is the difference between Input and Shuffle Read

Spark调参过程中

保持每个task的 input + shuffle read 量在300-500M左右比较合适

The Spark UI is documented here: https://spark.apache.org/docs/3.0.1/web-ui.html

The relevant paragraph reads:

  • Input: Bytes read from storage in this stage
  • Output: Bytes written in storage in this stage
  • Shuffle read: Total shuffle bytes and records read, includes both data read locally and data read from remote executors
  • Shuffle write: Bytes and records written to disk in order to be read by a shuffle in a future stage
相关推荐
龙山云仓几秒前
No098:黄道婆&AI:智能的工艺革新与技术传承
大数据·开发语言·人工智能·python·机器学习
管理大亨4 分钟前
电商零售ELK应用:五大核心场景解析
大数据·elk·零售
管理大亨6 分钟前
光伏大棚智慧管理:ELK数据中枢
大数据·运维·elk·elasticsearch
Lin_Miao_097 分钟前
Flink + Doris + Airflow 构建企业级实时报表统计平台方案
大数据·flink
Chasing__Dreams14 分钟前
kafka--基础知识点--19--消息重复
分布式·kafka
MuseDAM_cc17 分钟前
企业素材找不到?DAM 3 步解决资产分散
大数据·人工智能
山峰哥30 分钟前
数据库性能优化实战:从工程架构到SQL调优的深度解析
大数据·数据库·oracle·性能优化·架构·深度优先
山东小木31 分钟前
AI应用开发:节点化思维链与Skills经验库如何重塑企业级AI智能体
大数据·人工智能·skills·java ai·springboot ai
共享家952740 分钟前
从 Redis 到分布式架构
redis·分布式·架构
2501_940198691 小时前
【前瞻创想】Kurator云原生实战:打造企业级分布式云原生基础设施的完整指南与深度实践
分布式·云原生