【Spark】What is the difference between Input and Shuffle Read

Spark调参过程中

保持每个task的 input + shuffle read 量在300-500M左右比较合适

The Spark UI is documented here: https://spark.apache.org/docs/3.0.1/web-ui.html

The relevant paragraph reads:

  • Input: Bytes read from storage in this stage
  • Output: Bytes written in storage in this stage
  • Shuffle read: Total shuffle bytes and records read, includes both data read locally and data read from remote executors
  • Shuffle write: Bytes and records written to disk in order to be read by a shuffle in a future stage
相关推荐
cal_31 分钟前
数据分析中的拉链表解析
大数据·数据挖掘·数据分析
亿信华辰软件34 分钟前
亿信华辰赋能大学教务数据分析实战记
大数据·数据分析
❀always❀1 小时前
深入浅出分布式限流(更新中)
分布式·wpf
qyresearch_2 小时前
全球机械工业设计服务市场:技术驱动下的创新与增长
大数据·人工智能
前端开发与ui设计的老司机3 小时前
大数据时代UI前端的智能化升级:基于机器学习的用户意图预测
大数据·ui
oneslide3 小时前
elasticsearch备份恢复
大数据·elasticsearch·搜索引擎
rui锐rui3 小时前
大数据学习6:Sqoop数据迁移工具
大数据·学习·sqoop
Bug退退退1234 小时前
RabbitMQ 幂等性
分布式·rabbitmq
小牛头#8 小时前
clickhouse 各个引擎适用的场景
大数据·clickhouse·机器学习