一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
lzhlizihang1 小时前
【spark的集群模式搭建】Standalone集群模式的搭建(简单明了的安装教程)
spark·standalone模式·spark集群搭建
W Y15 小时前
【架构-37】Spark和Flink
架构·flink·spark
数新网络19 小时前
《深入浅出Apache Spark》系列②:Spark SQL原理精髓全解析
大数据·sql·spark
天冬忘忧1 天前
Spark 程序开发与提交:本地与集群模式全解析
大数据·分布式·spark
全栈开发圈1 天前
新书速览|Spark SQL大数据分析快速上手
sql·数据分析·spark
天冬忘忧1 天前
Spark on YARN:Spark集群模式之Yarn模式的原理、搭建与实践
大数据·spark
出发行进1 天前
PySpark本地开发环境搭建
大数据·python·数据分析·spark·anaconda
Mephisto.java1 天前
【大数据学习 | kafka高级部分】文件清除原理
大数据·hadoop·zookeeper·spark·kafka·hbase·flume
青春不流名2 天前
mysql-springboot netty-flink-kafka-spark(paimon)-minio
spark
小黑032 天前
Spark资源调度和任务调度
大数据·分布式·spark