一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
r-t-H18 小时前
从零开始搭建CDH-第十四章
spark·kafka·centos·cloudera
zandy10111 天前
2026 BI平台与数据中台融合架构实践:从数据烟囱到统一智能数据层
大数据·架构·spark
zhojiew2 天前
使用AWS中国区Lambda集成Glue Schema Registry消费Kafka消息的实践
大数据·spark·etl
r-t-H2 天前
从零开始搭建CDH-第十二章
linux·hive·spark·centos·hbase
zhojiew3 天前
部署DataHub并导入Glue元数据以集成DBT和Spark ETL任务中数据血缘的实践
大数据·spark·etl
WL_Aurora4 天前
大数据技术之SparkCore
大数据·前端·spark·rdd
WL_Aurora4 天前
Scala核心编程(一):Scala语言概述与快速入门
spark·scala
曾阿伦4 天前
Spark2 序列化解析:JavaSerializer vs KryoSerializer
spark
KaMeidebaby4 天前
卡梅德生物技术快报|适配体筛选技术架构演进:SPARK-seq 高通量平台原理与技术流程解析
大数据·前端·其他·百度·架构·spark·新浪微博
元拓数智4 天前
智能分析落地卡壳?先补好「数据关系+语义治理」这层技术基建
大数据·分布式·ai·spark·数据关系·语义治理