目录:
1.数据输出-输出为Python对象
2.数据输出-输出到文件中
3.综合案例
1.数据输出-输出为Python对象














2.数据输出-输出到文件中





移动文件到文件夹:




生成了好多文件,因为Rdd是有分区的 ,会把数据分散到各个分区去存储,因为电脑是16核,默认给了16个分区,有的分区有数据,有的没数据,12345默认随机分散到随机一个分区



我想生成到一个分区里:








第二种方式,设置分区为1:




3.综合案例



以反斜杠分割

取0号元素,切片取前两个元素

变成2元元组:

进行分组聚合:

进行排序:

取前3:

\代表换行

简化代码:


2:
以反斜杠分割

取2号元素:

变成2元元组

进行分组聚合:

进行排序:

取前3:



以反斜杠分割

过滤元素:

以小时为key变成二元元组

进行分组聚合:

进行排序:

取第一个元素:




以反斜杠分割

变成字典:

写出到文件:

设置分区:



