【Spark】What is the difference between Input and Shuffle Read

Spark调参过程中

保持每个task的 input + shuffle read 量在300-500M左右比较合适

The Spark UI is documented here: https://spark.apache.org/docs/3.0.1/web-ui.html

The relevant paragraph reads:

  • Input: Bytes read from storage in this stage
  • Output: Bytes written in storage in this stage
  • Shuffle read: Total shuffle bytes and records read, includes both data read locally and data read from remote executors
  • Shuffle write: Bytes and records written to disk in order to be read by a shuffle in a future stage
相关推荐
Crazy CodeCrafter9 分钟前
现在做服装,实体和电商怎么选?
大数据·数据库·人工智能·微信·开源软件·零售
2601_9544345514 分钟前
2026年专业深度测评:入门电钢琴品牌排名前五权威发布
大数据·人工智能·python
xixixi7777718 分钟前
通信产业的“全维度加速”:从5G-A商用、6G冲刺到卫星互联网密集组网
大数据·网络·人工智能·ai·多模型
Albert Edison27 分钟前
【RabbitMQ】快速入门
java·分布式·rabbitmq
想你依然心痛32 分钟前
HarmonyOS 5.0医疗健康开发实战:构建分布式健康监测与AI预警系统
人工智能·分布式·harmonyos
青春不流名1 小时前
kafka 集成OAUTHBEARER认证的例子
分布式·kafka
洛豳枭薰1 小时前
kafka重平衡导致的消息重复消费或者消息丢失
分布式·kafka
rannn_1111 小时前
【Redis|高级篇1】分布式缓存|持久化(RDB、AOF)、主从集群、哨兵、分片集群
java·redis·分布式·后端·缓存
014-code1 小时前
rabbitmq消息积压:如何快速排查与处理
分布式·rabbitmq
rchmin1 小时前
阿里Tair分布式锁与Redis分布式锁的实现区别
数据库·redis·分布式