一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
是阿威啊21 小时前
【第六站】测试本地项目连接虚拟机上的大数据集群
大数据·linux·hive·hadoop·spark·yarn
是阿威啊1 天前
【第五站】集群组件一键启动/关闭脚本(Hadoop/YARN + Hive + Spark)
linux·运维·hive·hadoop·spark
搬砖快乐~1 天前
面经:大数据开发岗-初面 面试题(40分钟)
大数据·hadoop·spark·kafka·面试题·面经
潘达斯奈基~1 天前
spark性能优化3:小文件问题
大数据·性能优化·spark
潘达斯奈基~1 天前
spark性能优化4:数据倾斜
大数据·性能优化·spark
老马聊技术2 天前
Spark完全分布式集群环境搭建详细教程
大数据·spark
灯下夜无眠2 天前
Spark Executor 与 Driver 在三种模式下的区别
大数据·分布式·spark
yumgpkpm3 天前
Cloudera CDH5|CDH6|CDP7.1.7|CDP7.3|CMP 7.3的产品优势分析(在华为鲲鹏 ARM 麒麟KylinOS、统信UOS)
大数据·人工智能·hadoop·深度学习·spark·transformer·cloudera
毕设源码-赖学姐4 天前
【开题答辩全过程】以 基于Spark的电商用户行为分析系统为例,包含答辩的问题和答案
大数据·分布式·spark
Light605 天前
数据要素与数据知识产权交易中心建设专项方案——以领码 SPARK 融合平台为技术底座,构建可评估、可验证、可交易、可监管的数据要素工程体系
大数据·分布式·spark