【Spark】What is the difference between Input and Shuffle Read

Spark调参过程中

保持每个task的 input + shuffle read 量在300-500M左右比较合适

The Spark UI is documented here: https://spark.apache.org/docs/3.0.1/web-ui.html

The relevant paragraph reads:

  • Input: Bytes read from storage in this stage
  • Output: Bytes written in storage in this stage
  • Shuffle read: Total shuffle bytes and records read, includes both data read locally and data read from remote executors
  • Shuffle write: Bytes and records written to disk in order to be read by a shuffle in a future stage
相关推荐
乌恩大侠33 分钟前
AI-RAN 在 Spark上部署 Sionna-RK
大数据·分布式·spark
csdn_aspnet1 小时前
【探索实战】Kurator入门体验与分布式云原生环境搭建
分布式·云原生·kurator
G皮T3 小时前
【ELasticsearch】索引字段设置 “index”: false 的作用
大数据·elasticsearch·搜索引擎·全文检索·索引·index·检索
q***69773 小时前
集成RabbitMQ+MQ常用操作
分布式·rabbitmq
灰灰勇闯IT4 小时前
Flutter×鸿蒙深度融合指南:从跨端适配到分布式能力落地(2025最新实战)
分布式·flutter·harmonyos
BD_Marathon4 小时前
【Zookeeper】zk_客户端API_创建节点
分布式·zookeeper·云原生
BD_Marathon4 小时前
【Zookeeper】监听器原理
linux·分布式·zookeeper
无心水5 小时前
【分布式利器:分布式ID】5、UUID/GUID方案:无依赖实现,优缺点与场景选型
分布式·分库分表·uuid·分布式id·水平分库·分布式利器·guid
程序员皮皮林5 小时前
Redis:大数据中如何抗住2000W的QPS
大数据·数据库·redis
F***E2395 小时前
【分布式文件存储系统Minio】2024.12保姆级教程
分布式