sparksql的SQL风格编程

我们前面的文章介绍了DSL风格的编程,现在介绍以下两种编程风格之一的sql风格编程。

sql风格编程简介

sql风格编程就是我们可以通过spark.sql来执行sql语句进行查询,这时的DataFrame就像是一张关系型数据表。返回的是DataFrame。

如果我们想用sql风格的编程,需要先将DataFrame注册成表,注册表的方式有以下3种:

go 复制代码
# 注册临时表
df.createTempView("score")
# 注册临时表,如果存在则替换
df.createOrReplaceTempView("score")
# 注册全局表
df.createGlobalTempview("score")

值得注意的是,全局表是可以跨sparksession对象使用的,在一个程序内,多个sparksession对象都可以使用,临时表只能在当前的sparksession中使用,全局表的查询需带上前缀global_temp.xxx

将dataframe注册成表之后就可以用sql语句来查询了

python 复制代码
spark.sql("SELECT subject, COUNT(*) AS cnt FROM score GROUP BY subject").show()
相关推荐
老蒋新思维18 小时前
创客匠人视角:智能体重构创始人 IP,知识变现从 “内容售卖” 到 “能力复制” 的革命
大数据·网络·人工智能·tcp/ip·创始人ip·创客匠人·知识变现
梦里不知身是客1119 小时前
RDD分区的设定规则
spark
笨蛋少年派19 小时前
Flume数据采集工具简介
大数据
梦里不知身是客1119 小时前
spark中如何调节Executor的堆外内存
大数据·javascript·spark
小C80620 小时前
【Starrocks + Hive 】BitMap + 物化视图 实战记录
大数据
西格电力科技21 小时前
面向工业用户的绿电直连架构适配技术:高可靠与高弹性的双重设计
大数据·服务器·人工智能·架构·能源
beijingliushao1 天前
105-Spark之Standalone HA环境搭建过程
大数据·spark
五阿哥永琪1 天前
Git 开发常用命令速查手册
大数据·git·elasticsearch
毅硕科技1 天前
毅硕HPC | NVIDIA DGX Spark 万字硬核评测:将AI超级工厂带上桌面
功能测试·spark·hpc