【Spark】What is the difference between Input and Shuffle Read

Spark调参过程中

保持每个task的 input + shuffle read 量在300-500M左右比较合适

The Spark UI is documented here: https://spark.apache.org/docs/3.0.1/web-ui.html

The relevant paragraph reads:

  • Input: Bytes read from storage in this stage
  • Output: Bytes written in storage in this stage
  • Shuffle read: Total shuffle bytes and records read, includes both data read locally and data read from remote executors
  • Shuffle write: Bytes and records written to disk in order to be read by a shuffle in a future stage
相关推荐
长安城没有风1 小时前
从入门到精通【Redis】Redis 典型应⽤ --- 分布式锁
数据库·redis·分布式
言之。2 小时前
大模型嵌入 vs ES:语义搜索与关键字搜索
大数据·elasticsearch·搜索引擎
SirLancelot12 小时前
StarRocks-基本介绍(一)基本概念、特点、适用场景
大数据·数据库·数据仓库·sql·数据分析·database·数据库架构
阑梦清川3 小时前
es的docker部署和docker相关的可可视化面板工具介绍
大数据·elasticsearch·docker
Mr_LiYYD4 小时前
elasticsearch数据迁移
大数据·elasticsearch·搜索引擎
dalianwawatou4 小时前
GitLab 代码基础操作清单
大数据·elasticsearch·gitlab
Costrict5 小时前
解锁新阵地!CoStrict 现已支持 JetBrains 系列 IDE
大数据·ide·人工智能·深度学习·自然语言处理·ai编程·visual studio
爬山算法5 小时前
Redis(69)Redis分布式锁的优点和缺点是什么?
数据库·redis·分布式
阿里云大数据AI技术5 小时前
云栖实录|阿里云 Milvus:AI 时代的专业级向量数据库
大数据·人工智能·搜索引擎
随心............6 小时前
在开发过程中遇到问题如何解决,以及两个经典问题
hive·hadoop·spark