Python与Spark

1.什么是Spark

Spark用于对海量数据进行分布式计算

pyspark是利用Python语言完成Spark任务的第三方包

2.安装pyspark

打开命令行,输入【pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark】

3.pyspark入门

4. pyspark输入数据

(1)输入数据容器

查看rdd中的内容,用collect()方法

(2)输入文件

5.pyspark处理数据

(1)map成员方法(算子)

map方法用于逐个处理rdd中的数据

(2)flatmap算子

在map的基础上,多了解除嵌套的功能

(3)reduceByKey算子

对二元元组按照key分组聚合后 ,对每个组内的元素两两进行处理

(4)filter算子

过滤元素,只保留满足条件的

(5)distinct算子

对rdd中的数据去重

(6)sortBy算子

按照什么样的规则进行排序

6. pyspark输出数据为Python对象

(1)collect算子

(2)reduce算子

(3)take算子

(4)count算子

7.pyspark输出数据到文件中

saveAsTextFile算子

相关推荐
HeXDev1 小时前
【CDH】CDH环境中升级ZooKeeper的实战记录
分布式·zookeeper·云原生·cdh
SoFlu软件机器人10 小时前
秒级构建消息驱动架构:描述事件流程,生成 Spring Cloud Stream+RabbitMQ 代码
分布式·架构·rabbitmq
smileNicky11 小时前
RabbitMQ消息确认机制有几个confirm?
分布式·rabbitmq
智海观潮11 小时前
Unity Catalog与Apache Iceberg如何重塑Data+AI时代的企业数据架构
大数据·人工智能·ai·iceberg·catalog
柏峰电子12 小时前
市政道路积水监测系统:守护城市雨天出行安全的 “智慧防线”
大数据·人工智能·安全
威斯软科的老司机13 小时前
AR远程协作系统设计:虚实融合场景下的设备维护操作指引界面
大数据·ar·可视化
静若繁花_jingjing16 小时前
电商项目_核心业务_分布式ID服务
分布式
陆水A16 小时前
数仓主题域划分
大数据·数据仓库·数据库开发·etl·etl工程师
道一云黑板报16 小时前
Spark初探:揭秘速度优势与生态融合实践
大数据·分布式·spark·流式处理
Fireworkitte17 小时前
分布式链路追踪详解
分布式