一文详解pyspark常用算子与API

不负长风2024-01-01 10:45

rdd.glom()

对rdd的数据进行嵌套，嵌套按照分区来进行

cpp 复制代码

    rdd = sc.parallelize([1, 2, 3, 4, 5, 6, 7, 8, 9], 2)
    print(rdd.glom().collect())

输出：[[1,2,3,4],[5,6,7,8,9]]

参考

PySpark基础入门（2）：RDD及其常用算子_spark rdd 随机抽样-CSDN博客

上一篇：仿照AirDrop(隔空投送)优雅地在局域网中传输文件

下一篇：常用的几种包管理器 npm yarn cnpm pnpm 安装

热门推荐

01BongoCat - 跨平台键盘猫动画工具 02GitHub 镜像站点 03UV安装并设置国内源 04Linux下V2Ray安装配置指南 05GitLab 零基础入门指南：从安装到项目管理全流程 06jdk21下载、安装（Windows、Linux、macOS）07NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南 08Labelme从安装到标注：零基础完整指南 092025软件测试面试八股文（含答案+文档）10在VSCode配置Java开发环境的保姆级教程（适配各类AI编程IDE）