Python与Spark

1.什么是Spark

Spark用于对海量数据进行分布式计算

pyspark是利用Python语言完成Spark任务的第三方包

2.安装pyspark

打开命令行,输入【pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark】

3.pyspark入门

4. pyspark输入数据

(1)输入数据容器

查看rdd中的内容,用collect()方法

(2)输入文件

5.pyspark处理数据

(1)map成员方法(算子)

map方法用于逐个处理rdd中的数据

(2)flatmap算子

在map的基础上,多了解除嵌套的功能

(3)reduceByKey算子

对二元元组按照key分组聚合后 ,对每个组内的元素两两进行处理

(4)filter算子

过滤元素,只保留满足条件的

(5)distinct算子

对rdd中的数据去重

(6)sortBy算子

按照什么样的规则进行排序

6. pyspark输出数据为Python对象

(1)collect算子

(2)reduce算子

(3)take算子

(4)count算子

7.pyspark输出数据到文件中

saveAsTextFile算子

相关推荐
Sui_Network5 分钟前
Mysten Labs 与不丹王国政府的创新与技术部携手探索离线区块链
大数据·人工智能·web3·去中心化·区块链
互联科技报7 分钟前
GEO优化工具、AI搜索引擎优化软件平台实测报告:四大平台深度体验与选型指南
大数据·人工智能·搜索引擎
‘胶己人’26 分钟前
redis分布式锁
数据库·redis·分布式
递归尽头是星辰28 分钟前
AI 驱动的报表系统:从传统到智能的落地与演进
大数据·人工智能·大模型应用·spring ai·ai 报表·报表智能化
山沐与山28 分钟前
【MQ】Kafka与RocketMQ深度对比
分布式·kafka·rocketmq
cetcht888838 分钟前
35kV-750kV 变电站集中监控系统(涵盖火灾消防、安全防卫、动环、智能锁控、智能巡视等) 设备配置与布置
大数据·运维·物联网·机器人·能源
Elastic 中国社区官方博客41 分钟前
通过 Elasticsearch 中的 function score query 按利润和受欢迎程度提升电商搜索效果
大数据·数据库·elasticsearch·搜索引擎·全文检索
武子康42 分钟前
Java-203 RabbitMQ 生产者/消费者工作流程拆解:Connection/Channel、默认交换器、ACK
java·分布式·消息队列·rabbitmq·erlang·ruby·java-rabbitmq
Data-Miner1 小时前
165页满分PPT | 某商贸企业数字化蓝图整体规划方案
大数据
CES_Asia1 小时前
政策x技术x市场:三位一体推动机器人产业爆发
大数据·人工智能·科技·机器人