一文详解pyspark常用算子与API

rdd.glom()

对rdd的数据进行嵌套,嵌套按照分区来进行

cpp 复制代码
    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出:[[1,2,3,4],[5,6,7,8,9]]

参考

相关推荐
菜鸡儿齐1 天前
spark组件-spark sql-读取数据
大数据·sql·spark
GitCode官方2 天前
科大讯飞星火科技文献大模型 Spark-Scilit-X1-13B 在 GitCode 开源,助力科研智能化革新!
科技·spark·gitcode
想ai抽2 天前
大数据计算引擎-从源码看Spark AQE对于倾斜的处理
大数据·数据仓库·spark
菜鸡儿齐3 天前
spark组件-spark core(批处理)-rdd创建
大数据·分布式·spark
B站_计算机毕业设计之家3 天前
python股票交易数据管理系统 金融数据 分析可视化 Django框架 爬虫技术 大数据技术 Hadoop spark(源码)✅
大数据·hadoop·python·金融·spark·股票·推荐算法
想ai抽3 天前
Spark的shuffle类型与对比
大数据·数据仓库·spark
阿里云大数据AI技术4 天前
从“开源开放”走向“高效智能”:阿里云 EMR 年度重磅发布
spark
随心............4 天前
yarn面试题
大数据·hive·spark
ZHOU_WUYI4 天前
Apache Spark 集群部署与使用指南
大数据·spark·apache