PySpark检查两个DataFrame的数据是否一致

数据条数比较

可以使用 count() 方法来获取每个DataFrame的行数,若行数不同,则数据肯定不一致。示例代码如下:

python 复制代码
df1 = spark.createDataFrame([(1, 'a'), (2, 'b')], ['id', 'name'])
df2 = spark.createDataFrame([(1, 'a'), (2, 'b'), (3, 'c')], ['id', 'name'])

if df1.count()!= df2.count():
    print("两个DataFrame数据条数不一致")

数据排序后比较

先对两个DataFrame按照相同的列进行排序,再将它们转换为RDD,然后使用 zip 函数将两个RDD的元素一一对应地组合成元组,最后检查每个元组中的两个元素是否相等。示例代码如下:

python 复制代码
sorted_df1 = df1.sort('id')
sorted_df2 = df2.sort('id')

rdd1 = sorted_df1.rdd
rdd2 = sorted_df2.rdd

if all(x == y for x, y in rdd1.zip(rdd2)):
    print("两个DataFrame数据一致")
else:
    print("两个DataFrame数据不一致")

数据差值比较

使用 subtract 方法获取两个DataFrame的差值,如果差值DataFrame为空,则说明两个DataFrame数据一致。示例代码如下:

python 复制代码
diff_df1 = df1.subtract(df2)
diff_df2 = df2.subtract(df1)

if diff_df1.count() == 0 and diff_df2.count() == 0:
    print("两个DataFrame数据一致")
else:
    print("两个DataFrame数据不一致")

数据哈希值比较

计算每个DataFrame中每行数据的哈希值,然后比较两个DataFrame的哈希值集合是否相等。示例代码如下:

python 复制代码
from pyspark.sql.functions import hash

hashed_df1 = df1.select(hash(*df1.columns).alias('hash_value'))
hashed_df2 = df2.select(hash(*df2.columns).alias('hash_value'))

hash_set1 = set(hashed_df1.rdd.flatMap(lambda x: x).collect())
hash_set2 = set(hashed_df2.rdd.flatMap(lambda x: x).collect())

if hash_set1 == hash_set2:
    print("两个DataFrame数据一致")
else:
    print("两个DataFrame数据不一致")
相关推荐
AI优秘企业大脑1 小时前
需求洞察助力战略规划实现潜在市场机会
大数据·人工智能
罗不俷1 小时前
【Hadoop】Hadoop核心基础——YARN 框架架构与运行机制(Hadoop 集群的 “资源管家”)
大数据
小小王app小程序开发4 小时前
上门家政小程序用户激励机制分析:用 “利益 + 情感” 双驱动,解锁高复购增长密码
大数据·小程序
武汉唯众智创11 小时前
高职院校大数据软件教学实训室建设方案
大数据·大数据实训室·大数据实验室·大数据软件教学实训室·大数据教学实训室
Elastic 中国社区官方博客11 小时前
Elasticsearch:如何为 Elastic Stack 部署 E5 模型 - 下载及隔离环境
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
qqxhb12 小时前
系统架构设计师备考第68天——大数据处理架构
大数据·hadoop·flink·spark·系统架构·lambda·kappa
思通数科多模态大模型12 小时前
扑灭斗殴的火苗:AI智能守护如何为校园安全保驾护航
大数据·人工智能·深度学习·安全·目标检测·计算机视觉·数据挖掘
high201112 小时前
【Git】-- Rebase 减少 Commit 次数指南
大数据·git·elasticsearch
Ace_317508877612 小时前
淘宝店铺全量商品接口实战:分类穿透采集与增量同步的技术方案
大数据·数据库·python
盈飞无限14 小时前
质量智能革命:SPC软件助力中国制造驶入高质量发展快车道
大数据·人工智能·制造