Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。

使用代码:

python 复制代码
spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()

但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800的时间,但是往往会出现df_eff_dt为20240131的日期。

解决方案

通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。

为了解决日历问题返回的时间错误:

Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled来解决时间问题。

PySpark可以采用pandas的方式,解决问题,解决function如下。

python 复制代码
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']

参考内容

A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0

相关推荐
马达加斯加D3 分钟前
缓存 --- 内存缓存 or 分布式缓存
分布式·缓存
AEMC马广川7 分钟前
关于综合能源服务认证证书的全解析专业认证团队
java·大数据·服务器·能源
黄雪超1 小时前
Flink介绍——实时计算核心论文之MillWheel论文总结
大数据·flink·论文笔记
lilye662 小时前
精益数据分析(10/126):深度剖析数据指标,驱动创业决策
大数据·人工智能·数据分析
戈云 11063 小时前
Spark-SQL4
spark
Acrelgq234 小时前
工厂能耗系统智能化解决方案 —— 安科瑞企业能源管控平台
大数据·人工智能·物联网
程序猿阿伟4 小时前
《分布式软总线架构下,设备虚拟化技术的深度剖析与优化策略》
分布式·架构
D愿你归来仍是少年6 小时前
使用 PySpark 批量清理 Hive 表历史分区
大数据·数据仓库·hive·spark
End9287 小时前
Hadoop的三大结构及其作用?
大数据·hadoop·分布式
海金沙337 小时前
spark–sql项目实验
spark