pyspark执行group by操作

前情提要

在处理亿级别数据时,常常输入是hive表,因此需要在pypark流程中引入一些场景sql操作,其中group by就是比较常见的操作。

基础步骤

  1. 创建SparkSession:通过enableHiveSupport()方法启用Hive支持,确保能够访问Hive表。
  2. 加载数据:使用spark.sql()方法从Hive表中加载数据到DataFrame。
  3. 分组聚合操作:使用groupBy方法按field1和field2进行分组,并使用agg方法结合sum函数对field3进行求和操作。alias方法用于为聚合结果指定别名。
  4. 显示结果:使用show方法显示聚合结果。
  5. 停止SparkSession:最后停止SparkSession以释放资源。通常该步骤不需要,但是在例行化任务中,会偶发任务已执行完成,但是仍然占用资源情况,所以该步骤最好加上

代码展示

python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import sum

# 创建SparkSession并启用Hive支持
spark = SparkSession.builder \
    .appName("GroupByExample") \
    .enableHiveSupport() \
    .getOrCreate()

# 假设已在Hive中创建了一个名为your_table_name的表
# 该表有字段: field1, field2, field3

# 从Hive表中加载数据
df = spark.sql("SELECT * FROM your_table_name")

# 使用groupBy和sum函数进行分组聚合操作
result_df = df.groupBy("field1", "field2").agg(sum("field3").alias("sum_field3"))

# 显示结果
result_df.show()

# 停止SparkSession
spark.stop()
相关推荐
ACP广源盛139246256731 天前
GSV2221 显示转换芯片@ACP#赋能 RTX Spark 端侧 AI 设备,构建多屏全模态视觉交互新生态
大数据·人工智能·嵌入式硬件·gpt·spark·电脑·音视频
ACP广源盛139246256731 天前
GSV2231 三屏显示扩展芯片@ACP#RTX Spark AI 终端多屏协作专属解决方案
大数据·人工智能·分布式·信息可视化·spark·电脑·音视频
KaMeidebaby2 天前
卡梅德生物技术快报|蛋白定制:ACE 抑制肽原辅料工艺全参数|适配蛋白定制的提取 & 酶解标准化实操手册
大数据·人工智能·架构·spark·新浪微博
阿里云大数据AI技术4 天前
EMR Serverless Spark 数据湖上新能力:一条 SQL 实现标量向量混合检索
人工智能·sql·spark
暴躁小师兄数据学院5 天前
【AI大数据工程师特训笔记】第16讲:大数据环境安装
大数据·hadoop·笔记·flink·spark·database
IDIOT___IDIOT5 天前
Docker 集群运行 Spark 的一些记录
docker·容器·spark
工业互联网专业6 天前
基于Spark的共享单车数据存储系统的设计与实现_flask+spider
spark·flask·毕业设计·源码·课程设计·spider·共享单车
X.AI6666 天前
英伟达RTX Spark发布:AI PC的下一战,不是跑分,而是本地Agent
大数据·人工智能·spark
KaMeidebaby7 天前
卡梅德生物技术快报|peg 修饰调控 MXene/WS2 异质结,氨气传感器制备与机理研究
大数据·前端·人工智能·架构·spark·新浪微博