【Spark】What is the difference between Input and Shuffle Read

Spark调参过程中

保持每个task的 input + shuffle read 量在300-500M左右比较合适

The Spark UI is documented here: https://spark.apache.org/docs/3.0.1/web-ui.html

The relevant paragraph reads:

  • Input: Bytes read from storage in this stage
  • Output: Bytes written in storage in this stage
  • Shuffle read: Total shuffle bytes and records read, includes both data read locally and data read from remote executors
  • Shuffle write: Bytes and records written to disk in order to be read by a shuffle in a future stage
相关推荐
百锦再4 分钟前
大数据技术的主要方向及其应用详解
大数据·linux·网络·python·django·pygame
巨龙之路1 小时前
【TDengine源码阅读】#if defined(__APPLE__)
大数据·时序数据库·tdengine
巨龙之路2 小时前
【TDengine源码阅读】TAOS_DEF_ERROR_CODE(mod, code)
大数据·时序数据库·tdengine
钊兵2 小时前
hivesql是什么数据库?
大数据·hive
元6332 小时前
运行Spark程序-在shell中运行
spark
predisw3 小时前
Kafka如何实现高性能
分布式·kafka
炒空心菜菜3 小时前
MapReduce 实现 WordCount
java·开发语言·ide·后端·spark·eclipse·mapreduce
人大博士的交易之路3 小时前
今日行情明日机会——20250516
大数据·数学建模·数据挖掘·程序员创富·缠中说禅·涨停回马枪·道琼斯结构
斯普信专业组3 小时前
Elasticsearch索引全生命周期管理指南之一
大数据·elasticsearch·搜索引擎
好吃的肘子4 小时前
MongoDB 应用实战
大数据·开发语言·数据库·算法·mongodb·全文检索