一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
俊哥大数据12 小时前
【项目实战1】大数据项目开发案例---新闻资讯离线分析|实时分析|大数据仓库|推荐系统|数据可视化项目
数据仓库·hadoop·flink·spark·推荐系统·实时分析·离线分析
Q_Q51100828514 小时前
python+django/flask+vue基于spark的西南天气数据的分析与应用系统
spring boot·python·spark·django·flask·node.js
写代码的【黑咖啡】15 小时前
Hive on Spark:加速大数据分析的新引擎
hive·数据分析·spark
会编程的李较瘦2 天前
【Sparksql学习】SparkSql常用函数(DSL+scala)
学习·spark
yumgpkpm2 天前
Hadoop、Cloudera CDH没有消亡,它是大数据的未来
人工智能·hive·hadoop·spark·kafka·开源·hbase
bigdata-rookie2 天前
数据仓库建模
大数据·分布式·spark
天天向上杰3 天前
spark、mapreduce、flink核心区别及浅意理解
flink·spark·mapreduce
路边草随风3 天前
java实现发布spark yarn作业
java·spark·yarn
Light604 天前
Spark OA 系统深度分析与改造报告(整合版 + 领码 SPARK 改造计划 + 功能缺口)
大数据·分布式·spark