使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。
使用代码:
python
spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()
但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800
的时间,但是往往会出现df_eff_dt为20240131
的日期。
解决方案
通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()
方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。
为了解决日历问题返回的时间错误:
Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled
来解决时间问题。
PySpark可以采用pandas的方式,解决问题,解决function如下。
python
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']
参考内容
A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0