sparksql DSL编程风格

sparksql的DataFrame支持两种风格的编程开发,一种是DSL风格,一种是SQL风格,下面介绍几个常用api,sparksql的api还得常查其官方文档https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.select.html#pyspark.sql.DataFrame.select

DSL风格

DSL是domain special language的简写,其实就是DataFrame特有的api,它的本质就是用调用api的的方式来处理data,如df.where().limit()

dsl风格的几个常用api如下:

select()

select的参数可以是str,list或column对象,返回是一个DataFrame

python 复制代码
// string作为参数
df.select("id", "subject").show()
df.select(["id", "subject"]).show()
id_col1 = df["id"]
id_col2 = df.id
id_col3 = df["subject"]
id_col4 = df.subject
df.select(id_col1, id_col3).show()
df.select(id_col2, id_col4)show()
filter()

filter只允许字符串表达式或column对象

python 复制代码
df.filter("score < 80").show()
df.filter(df['score'] < 80).show()
where()

where api 与上面类似

python 复制代码
df.where("score < 80").show()
df.where(df['score'] < 80).show()
groupBy()/groupby()

groupby的参数也是支持str、list、column对象,对指定的列进行分组,然后方便进行聚合、统计等计算,它的返回值是GroupData类型,是一个中间类型,这个类型有一系列计算方法如求和、平均等给开发者做聚合,我们通常最终需要的是分组后再做聚合的结果

https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.GroupedData.html#pyspark.sql.GroupedData

python 复制代码
df.groupBy("score").count().show()
相关推荐
嘉禾望岗5035 小时前
Yarn介绍与HA搭建
大数据·hadoop·yarn
小麦矩阵系统永久免费5 小时前
小麦矩阵系统:让短视频分发实现抖音快手小红书全覆盖
大数据·人工智能·矩阵
IT研究室6 小时前
大数据毕业设计选题推荐-基于大数据的国家药品采集药品数据可视化分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·信息可视化·spark·毕业设计·数据可视化·bigdata
Lx3526 小时前
Hadoop性能瓶颈分析:从JVM到磁盘IO的全链路优化
大数据·hadoop
大数据点灯人6 小时前
【Flink】Flink Runtime 开发指南
大数据·flink
一个java开发7 小时前
distributed.client.Client 用户可调用函数分析
大数据·python
字节数据平台9 小时前
一客一策:Data Agent 如何重构大模型时代的智能营销
大数据·人工智能·重构
字节跳动数据平台9 小时前
《十六进制觉醒》:与我们一起,探索AI与数据的无限可能!
大数据
道一云黑板报9 小时前
Spark生态全景图:图计算与边缘计算的创新实践
大数据·性能优化·spark·边缘计算
Lansonli9 小时前
大数据Spark(六十三):RDD-Resilient Distributed Dataset
大数据·分布式·spark