sparksql DSL编程风格

sparksql的DataFrame支持两种风格的编程开发,一种是DSL风格,一种是SQL风格,下面介绍几个常用api,sparksql的api还得常查其官方文档https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.DataFrame.select.html#pyspark.sql.DataFrame.select

DSL风格

DSL是domain special language的简写,其实就是DataFrame特有的api,它的本质就是用调用api的的方式来处理data,如df.where().limit()

dsl风格的几个常用api如下:

select()

select的参数可以是str,list或column对象,返回是一个DataFrame

python 复制代码
// string作为参数
df.select("id", "subject").show()
df.select(["id", "subject"]).show()
id_col1 = df["id"]
id_col2 = df.id
id_col3 = df["subject"]
id_col4 = df.subject
df.select(id_col1, id_col3).show()
df.select(id_col2, id_col4)show()
filter()

filter只允许字符串表达式或column对象

python 复制代码
df.filter("score < 80").show()
df.filter(df['score'] < 80).show()
where()

where api 与上面类似

python 复制代码
df.where("score < 80").show()
df.where(df['score'] < 80).show()
groupBy()/groupby()

groupby的参数也是支持str、list、column对象,对指定的列进行分组,然后方便进行聚合、统计等计算,它的返回值是GroupData类型,是一个中间类型,这个类型有一系列计算方法如求和、平均等给开发者做聚合,我们通常最终需要的是分组后再做聚合的结果

https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql/api/pyspark.sql.GroupedData.html#pyspark.sql.GroupedData

python 复制代码
df.groupBy("score").count().show()
相关推荐
yy7634966681 小时前
WPF 之 简单高效的Revit多语言支持方案
java·大数据·linux·服务器·wpf
渲吧云渲染4 小时前
SaaS模式重构工业软件竞争规则,助力中小企业快速实现数字化转型
大数据·人工智能·sass
青云交6 小时前
Java 大视界 -- 基于 Java 的大数据机器学习模型在图像识别中的迁移学习与模型优化
java·大数据·迁移学习·图像识别·模型优化·deeplearning4j·机器学习模型
java_logo12 小时前
Docker 部署 Elasticsearch 全流程手册
大数据·运维·mongodb·elasticsearch·docker·容器
墨香幽梦客13 小时前
掌控制造脉络:电子元器件行业常用ERP系统概览与参考指南
大数据·人工智能
B站_计算机毕业设计之家13 小时前
python舆情分析可视化系统 情感分析 微博 爬虫 scrapy爬虫技术 朴素贝叶斯分类算法大数据 计算机✅
大数据·爬虫·python·scrapy·数据分析·1024程序员节·舆情分析
汤姆yu13 小时前
2026版基于python大数据的电影分析可视化系统
大数据·python·1024程序员节·电影分析可视化
QMY52052013 小时前
TikTok 独立 IP 解决方案:独享静态住宅 IP + 环境隔离 + 粘性会话
大数据·jupyter·数据挖掘·数据分析·postman·1024程序员节
熟悉的新风景14 小时前
window安装Elasticsearch(es)
大数据·elasticsearch·jenkins
励志成为糕手14 小时前
Hive数据仓库:架构原理与实践指南
大数据·数据仓库·hive·1024程序员节·hql