Python与Spark

1.什么是Spark

Spark用于对海量数据进行分布式计算

pyspark是利用Python语言完成Spark任务的第三方包

2.安装pyspark

打开命令行,输入【pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark】

3.pyspark入门

4. pyspark输入数据

(1)输入数据容器

查看rdd中的内容,用collect()方法

(2)输入文件

5.pyspark处理数据

(1)map成员方法(算子)

map方法用于逐个处理rdd中的数据

(2)flatmap算子

在map的基础上,多了解除嵌套的功能

(3)reduceByKey算子

对二元元组按照key分组聚合后 ,对每个组内的元素两两进行处理

(4)filter算子

过滤元素,只保留满足条件的

(5)distinct算子

对rdd中的数据去重

(6)sortBy算子

按照什么样的规则进行排序

6. pyspark输出数据为Python对象

(1)collect算子

(2)reduce算子

(3)take算子

(4)count算子

7.pyspark输出数据到文件中

saveAsTextFile算子

相关推荐
洛水水19 分钟前
消息队列与Kafka详解
分布式·kafka
中讯慧通28 分钟前
无人机靠什么实时传画面?图传电台传输数据全明细
大数据·机器人·无人机
QYR_1137 分钟前
2032年全球料斗清洗机市场规模达14.67亿元:制药与食品行业驱动自动化清洗设备需求增长
大数据·市场调研
今日综合1 小时前
激光雷达的机器人市场竞争,谁在“吃透”六个场景?
大数据·机器人
KaMeidebaby1 小时前
卡梅德生物技术快报|噬菌体文库构建实验优化及偶联体系实验数据分析
大数据·人工智能·架构·spark·新浪微博
元Y亨H2 小时前
大数据转大模型(LLM)进阶学习路线图
大数据·llm
鸿乃江边鸟2 小时前
Spark中怎么做Spark canonicalize归一化
大数据·分布式·spark
未来之窗软件服务2 小时前
精选之变,顺势而生(2026 年高考语文作文)
大数据·人工智能·高考·仙盟创梦ide·东方仙盟
仰望星空的代码2 小时前
科技是市场的唯一
大数据·人工智能·科技·财经·股市行情
芯盾时代2 小时前
企业建立安全防线治理失控的Agent
大数据·人工智能·安全