Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。

使用代码:

python 复制代码
spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()

但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800的时间,但是往往会出现df_eff_dt为20240131的日期。

解决方案

通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。

为了解决日历问题返回的时间错误:

Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled来解决时间问题。

PySpark可以采用pandas的方式,解决问题,解决function如下。

python 复制代码
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']

参考内容

A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0

相关推荐
路边草随风12 小时前
java实现发布spark yarn作业
java·spark·yarn
Guheyunyi12 小时前
智慧停车管理系统:以科技重塑交通效率与体验
大数据·服务器·人工智能·科技·安全·生活
wang_yb1 天前
数据会说谎?三大推断方法帮你“审问”数据真相
大数据·databook
天远数科1 天前
Golang并发实战:高效对接天远API实现海量用户画像构建
大数据·api
expect7g1 天前
Paimon源码解读 -- Compaction-2.KeyValueFileWriterFactory
大数据·后端·flink
第二只羽毛1 天前
C++ 高性能编程要点
大数据·开发语言·c++·算法
jason成都1 天前
elasticsearch部署时创建用户密码
大数据·elasticsearch·jenkins
新华经济1 天前
合同管理系统2025深度测评:甄零科技居榜首
大数据·人工智能·科技
黑客思维者1 天前
招商银行信用卡AI客服系统:从0到1实战笔记
大数据·人工智能·笔记
醇氧1 天前
【git】 撤回一个本地提交
大数据·git·elasticsearch