Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。

使用代码:

python 复制代码
spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()

但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800的时间,但是往往会出现df_eff_dt为20240131的日期。

解决方案

通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。

为了解决日历问题返回的时间错误:

Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled来解决时间问题。

PySpark可以采用pandas的方式,解决问题,解决function如下。

python 复制代码
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']

参考内容

A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0

相关推荐
Bug退退退12311 分钟前
RabbitMQ 之消息积压
分布式·rabbitmq
熊猫钓鱼>_>13 分钟前
Hadoop 用户入门指南:驾驭大数据的力量
大数据·hadoop·分布式
Leo.yuan1 小时前
数据分析师如何构建自己的底层逻辑?
大数据·数据仓库·人工智能·数据挖掘·数据分析
Aurora_NeAr2 小时前
Apache Iceberg数据湖高级特性及性能调优
大数据·后端
SoFlu软件机器人2 小时前
飞算科技正在撬动各行业数字化转型的深层变革
大数据·科技
文艺倾年2 小时前
【八股消消乐】浅尝Kafka性能优化
分布式·性能优化·kafka
钟琛......3 小时前
Redisson 的分布式锁
分布式
抛砖者4 小时前
hive/spark sql中unix_timestamp 函数的坑以及时间戳相关的转换
hive·sql·spark
samLi06205 小时前
【工具变量】全国省市区县土地出让结果公告数据(2000-2024年)
大数据
CodeWithMe6 小时前
【Note】《Kafka: The Definitive Guide》第11章:Stream Processing
分布式·kafka