pyspark 执行group by操作 - 原始数据非hive

前情提要

pyspark执行group by操作中,数据源是hive,而有时候我们的数据源可能是集群上的某个文件,这时候可以pyspark中使用DataFrame API来根据自动字段执行group by操作,这里还是以sum为例。

基础步骤

  1. 创建SparkSession:首先创建一个SparkSession,这是使用PySpark的入口。
  2. 示例数据:定义一些示例数据,并创建一个DataFrame。
  3. 自动字段列表:定义一个包含需要执行sum操作的字段的列表。
  4. 执行sum操作:使用DataFrame的select方法和sum函数对指定字段执行sum操作。通过列表推导式生成sum表达式列表,并使用alias方法为每个sum结果指定别名。
  5. 显示结果:使用show方法显示结果DataFrame。
  6. 停止SparkSession:最后停止SparkSession

代码示例

python 复制代码
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum
# 创建SparkSession
spark = SparkSession.builder \
    .appName("SumOperationExample") \
    .getOrCreate()
# 示例数据
data = [
    ("Alice", 10, 20, 30),
    ("Bob", 40, 50, 60),
    ("Cathy", 70, 80, 90)
]
# 创建DataFrame
columns = ["Name", "Field1", "Field2", "Field3"]
df = spark.createDataFrame(data, columns)
# 自动字段列表
fields_to_sum = ["Field1", "Field2", "Field3"]
# 执行sum操作
sum_exprs = [sum(col(field)).alias(f"sum_{field}") for field in fields_to_sum]
result_df = df.select(sum_exprs)
# 显示结果
result_df.show()
# 停止SparkSession
spark.stop()
相关推荐
陆水A13 小时前
【实时数仓·3】Flink多表JOIN状态爆炸——Event Time Temporal JOIN + TTL分层治理
大数据·数据仓库·数据分析·flink·数据库开发·bigdata
段一凡-华北理工大学15 小时前
工业领域的Hadoop架构学习~系列文章20:故障诊断与根因分析 - 从表象到本质的智能推理
大数据·人工智能·hadoop·学习·架构·高炉炼铁·工业智能体
Francek Chen15 小时前
【大数据处理与分析】MapReduce:05 MapReduce的具体应用
大数据·hadoop·分布式·mapreduce
zhangjin122216 小时前
DataX从入门到精通 第1课 ETL之DataX 安装DataX
数据仓库·etl·datax·datax安装教程
zhangjin122217 小时前
DataX从入门到精通 第2课 ETL之DataX 安装datax-web
数据仓库·etl·datax·datax-web·datax-web安装教程
知识分享小能手18 小时前
Hadoop学习教程,从入门到精通, 部署Hadoop 3.x — 知识点详解(2)
大数据·hadoop·学习
Database_Cool_18 小时前
AI 时代的数据仓库:阿里云 AnalyticDB MySQL 向量检索 + SQL 分析一体化实战
数据仓库·人工智能·mysql·阿里云
AQin101219 小时前
【对比向】既生瑜何生亮?不!Hive 和 Doris不一样
数据仓库·hive·hadoop·doris
段一凡-华北理工大学20 小时前
工业领域的Hadoop架构学习~系列文章19:能源行业Hadoop应用实践
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
Database_Cool_20 小时前
数据仓库弹性扩缩容实践:阿里云 AnalyticDB MySQL 按需付费方案详解
数据仓库·mysql·阿里云