spark:数据的关联与合并、缓存和checkpoint

文章目录

  • [1. 数据的关联与合并](#1. 数据的关联与合并)
    • [1.1 join关联](#1.1 join关联)
      • [1.1.1 内关联](#1.1.1 内关联)
      • [1.1.2 左关联](#1.1.2 左关联)
      • [1.1.3 右关联](#1.1.3 右关联)
    • [1.2 Union合并](#1.2 Union合并)
  • [2. 缓存和checkpoint](#2. 缓存和checkpoint)

1. 数据的关联与合并

1.1 join关联

students表数据:

1.1.1 内关联

内关联只返回两个 DataFrame 中在连接键上匹配的行。

python 复制代码
# join 关联
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

#读取文件数据转为df
df1 = ss.read.csv('hdfs://node1/data/students.csv',header=True,sep=',')
df2 = ss.read.csv('hdfs://node1/data/students2.csv',header=True,sep=',')

#join 关联
df_join = df1.join(df2,'id') #默认时内关联
df_join.show()

运行结果:

1.1.2 左关联

左关联以左 DataFrame 为基础,返回左 DataFrame 的所有行以及在右 DataFrame 中与左 DataFrame 连接键匹配的行。如果右 DataFrame 中没有匹配的行,则相应的列将填充为 null

python 复制代码
# join 关联
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

#读取文件数据转为df
df1 = ss.read.csv('hdfs://node1/data/students.csv',header=True,sep=',')
df2 = ss.read.csv('hdfs://node1/data/students2.csv',header=True,sep=',')
#左关联
df_left_join = df1.join(df2,'id','left')
df_left_join.show()

运行结果:

1.1.3 右关联

右关联以右 DataFrame 为基础,返回右 DataFrame 的所有行以及在左 DataFrame 中与右 DataFrame 连接键匹配的行。如果左 DataFrame 中没有匹配的行,则相应的列将填充为 null

python 复制代码
# join 关联
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

#读取文件数据转为df
df1 = ss.read.csv('hdfs://node1/data/students.csv',header=True,sep=',')
df2 = ss.read.csv('hdfs://node1/data/students2.csv',header=True,sep=',')

#右关联
df_right_join = df1.join(df2,'id','right')
df_right_join.show()

运行结果

1.2 Union合并

在 Spark 中,union用于合并两个或多个相同数据结构的数据集(DataFrame 或 Dataset)。

python 复制代码
# union合并  上下行合并要保证字段数量和类型一致
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

# 读取文件数据转为df
df1 = ss.read.csv('hdfs://node1:8020/data/students.csv',header=True,sep=',')
df2 = ss.read.csv('hdfs://node1:8020/data/students2.csv',header=True,sep=',')

# 合并
df_union = df1.union(df2)
df_union.show(100)

df_unionAll = df1.unionAll(df2)  # 和union效果一样
df_unionAll.show(100)

# 合并后去重
df_distinct =  df_union.distinct()
df_distinct.show(100)

注意:union合并时,上下行合并要保证字段数量和类型一致。

2. 缓存和checkpoint

python 复制代码
# 缓存和checkpoint
from pyspark.sql import SparkSession

ss = SparkSession.builder.getOrCreate()

# 指定checkpoint位置
sc = ss.sparkContext
sc.setCheckpointDir('hdfs://node1:8020/df_checpoint')

# 读取文件数据转为df
df1 = ss.read.csv('hdfs://node1:8020/data/students.csv',header=True,sep=',')

# df1数据缓存
df1.persist()

# df1数据checkpoint
df1.checkpoint()

# df中的缓存和checkpoint不需要触发执行,内部会自动触发
相关推荐
段一凡-华北理工大学4 小时前
2026 高炉炼铁智能化技术全景与演进路径~系列文章11:演进路径与行业未来
大数据·网络·人工智能·算法·工业智能体·高炉炼铁智能化
搞科研的小刘选手4 小时前
【中山大学主办】第六届计算机科学与区块链国际学术会议(CCSB 2026)
分布式·神经网络·计算机视觉·区块链·计算机科学·共识算法·自然语言
狒狒热知识5 小时前
合规筑基专业赋能178软文网引领软文营销行业规范化发展
大数据
小饼干在学嘎瓦6 小时前
本地缓存和分布式缓存如何选择?
分布式·缓存
ZGi.ai7 小时前
企业AI资产管理体系:提示词、工作流、知识库应该怎么管
大数据·知识库·工作流编排·ai资产·提示词管理
XLYcmy7 小时前
全链路验证测试系统:一个针对智能代理(Agent)系统全链路能力的自动化验证脚本
分布式·python·http·网络安全·ai·llm·agent
爱分享的康康8 小时前
低成本自动驾驶数据采集设备理性分析:康谋入门套装适配性解析
大数据·人工智能
程序鉴定师9 小时前
上海小程序开发的坚实保障与行业优势解析
大数据·小程序
Elastic 中国社区官方博客9 小时前
我们如何在 Elasticsearch Serverless 上将向量搜索吞吐量提升一倍
大数据·数据库·人工智能·elasticsearch·搜索引擎·云原生·serverless
zgl_2005377910 小时前
源代码:跨数据库通用SQL语法解析与标注拆解
大数据·数据库·数据仓库·sql·etl·源代码管理