2024 1.9 Spark_SQL , 数据清洗API , 写出操作

目录

[一. DataFrame 详解](#一. DataFrame 详解)

[1. 数据清洗API](#1. 数据清洗API)

[1.去重 :](#1.去重 :)

[2. 去除空:](#2. 去除空:)

[3. 填充替换 :](#3. 填充替换 :)

[2. SparkSQL的shuffle分区设置](#2. SparkSQL的shuffle分区设置)

[3 . SparkSQL 数据写出操作](#3 . SparkSQL 数据写出操作)

[3.1 写出到文件系统](#3.1 写出到文件系统)

[3.2 写出到数据库](#3.2 写出到数据库)


一. DataFrame 详解

1. 数据清洗API

1.1 去重 :

DropDupilcates :

init_df.dropDuplicates().show()

init_df.dropDuplicates(subset="id","name").show()

用来删除重复数据。如果没有指定参数subset,那么要比对行中的所有字段内容,

如果全部相同,就认为是重复数据,会被删除;如果有指定参数subset,那么只比对subset中指定的字段范围

1.2 去除空:

Dropna:

init_df.dropna().show()

init_df.dropna(subset="id","name").show()

init_df.dropna(thresh=2,subset="name","age","address").show()

init_df.dropna(thresh=2).show()

dropna(thresh,subset):删除缺失值数据.

1- 如果不传递任何参数,只要有任意一个字段值为null,那么就删除整行数据

2- 如果只指定了subset,那么空值的检查,就只会限定在subset指定的范围内

3- 如果只指定了thresh,那么空值检查的这些字段中,至少需要有thresh(>=thresh)个字段的值不为空,才不会被删除

1.3 填充替换 :

fillna :

init_df.fillna(value=999).show()

init_df.fillna(value=999,subset="id","name").show()

init_df.fillna(value={"id":111,"name":"未知姓名","age":100,"address":"北京"}).show()

fillna(value,subset):替换缺失值数据

value:必须要传递参数.是用来填充缺失值的

subset:限定缺失值替换范围

注意:

1-value如果不是字典,那么只会替换字段类型匹配的空值

2-最常用的是value传递字典的形式

2. SparkSQL的shuffle分区设置

如何调整shuffle分区数量呢? spark.sql.shuffle.partitions

方案二(常用,推荐使用): 在客户端通过submit命令提交的时候, 动态设置shuffle的分区数量。部署、上线的时候、基于spark-submit提交运行的时候

./spark-submit --conf "spark.sql.shuffle.partitions=20"

方案三(比较常用): 在代码中设置。主要在测试环境中使用, 但是一般在部署上线的时候, 会删除(写死)。优先级也是最高的。一般的使用场景是,当你的数据量未来不会发生太大的波动。

sparkSession.conf.set('spark.sql.shuffle.partitions',20)

3 . SparkSQL 数据写出操作

3.1 写出到文件系统

常用参数说明:

1- path:指定结果数据输出路径。支持本地文件系统和HDFS文件系统

2- mode:当输出目录中文件已经存在的时候处理办法

2.1- append:追加。如果文件已经存在,那么继续在该目录下产生新的文件

2.2- overwrite:覆盖。如果文件已经存在,那么就先将已有的文件清除,再写入进去

2.3- ignore:忽略。如果文件已经存在,那么不执行任何操作

2.4- error:报错。如果文件已经存在,那么直接报错。会报错AnalysisException: path file:xxx already exists.

3- sep:字段间的分隔符

4- header:数据输出的时候,是否要将字段名称输出到文件的第一行。推荐设置为True

5- encoding:文件输出的编码方式

对应的简写API格式如下,以CSV为例:

init_df.write.csv(

path='存储路径',

mode='模式',

header=True,

sep='\001',

encoding='UTF-8'

)

数据输出到文件系统:复杂API

设置mode,需要单独调用mode()方法

result.write\

.format('json')\

.mode("overwrite")\

.option("encoding","UTF-8")\

.save('存储路径')

3.2 写出到数据库

数据输出到数据

创建数据库命令:create database 库名 character set utf8;

result.write.jdbc(

url='jdbc:mysql://node1:3306/库名?useUnicode=true&characterEncoding=utf-8',

table='表名',

mode='append',

properties={ 'user' : '用户名', 'password' : '密码' }

)

相关推荐
听你说326 小时前
科技护航极限征程 三诺生物助力雄关330长城越野赛
大数据·科技·健康医疗
电商API_180079052476 小时前
bilibili关键字搜索视频列表|获取视频详情API调用示例
大数据·数据挖掘·网络爬虫·音视频
数智顾问9 小时前
(151页PPT)XX集团信息化整体架构规划及ERP方案建议书(附下载方式)
大数据·架构
天行健,君子而铎9 小时前
2026年通用行业数据分类分级产品排名——聚焦成本低、全链路覆盖与高性能计算的优质选型
大数据·数据库·人工智能
财经资讯数据_灵砚智能10 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月10日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能
电商API_1800790524710 小时前
Python 实现闲鱼商品列表批量采集,接口异常重试机制搭建
大数据·开发语言·数据库·爬虫·python
Java 码思客11 小时前
【ElasticSearch从入门到架构师】第3章:ES 核心基础概念(架构师必备底层认知)
大数据·elasticsearch·jenkins
李白的天不白11 小时前
查找容器IP
sql
德昂信息dataondemand11 小时前
BI项目中的主数据管理:如何确保跨部门数据一致性?
大数据
申通之声11 小时前
以体验和AI重构竞争力,申通要“构建生态共同体”
大数据·网络·人工智能·重构·交通物流