【Spark】What is the difference between Input and Shuffle Read

Spark调参过程中

保持每个task的 input + shuffle read 量在300-500M左右比较合适

The Spark UI is documented here: https://spark.apache.org/docs/3.0.1/web-ui.html

The relevant paragraph reads:

  • Input: Bytes read from storage in this stage
  • Output: Bytes written in storage in this stage
  • Shuffle read: Total shuffle bytes and records read, includes both data read locally and data read from remote executors
  • Shuffle write: Bytes and records written to disk in order to be read by a shuffle in a future stage
相关推荐
DavidSoCool1 小时前
Elasticsearch Java API Client [8.17] 使用
java·大数据·elasticsearch
用户199701080181 小时前
淘宝买家/卖家订单列表、订单详情、订单物流 API 接口全攻略
大数据
Arbori_262151 小时前
大数据 spark hive 总结
大数据·hive·spark
阿里云大数据AI技术1 小时前
中免日上使用阿里云向量检索服务 Milvus 版搭建在线推荐系统
大数据
smileNicky2 小时前
分布式与主流消息中间件总览
分布式
SYKMI2 小时前
关于分布式的误区
分布式
快乐非自愿3 小时前
分布式锁—Redisson的同步器组件
分布式·wpf
m0_748251723 小时前
Python大数据可视化:基于python大数据的电脑硬件推荐系统_flask+Hadoop+spider
大数据·python·flask
kngines3 小时前
【实战ES】实战 Elasticsearch:快速上手与深度实践-5.1.2基于Painless脚本的日志告警
大数据·elasticsearch·搜索引擎
caihuayuan54 小时前
「mysql」Mac mysql一路畅通式安装
java·大数据·spring boot·后端·课程设计