Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。

使用代码:

python 复制代码
spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()

但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800的时间,但是往往会出现df_eff_dt为20240131的日期。

解决方案

通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。

为了解决日历问题返回的时间错误:

Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled来解决时间问题。

PySpark可以采用pandas的方式,解决问题,解决function如下。

python 复制代码
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']

参考内容

A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0

相关推荐
薪火铺子2 分钟前
ElasticSearch 集群原理与分片管理深度解析
大数据·elasticsearch·搜索引擎
数说故事4 分钟前
数说故事消费者洞察:全域大数据解析电解质饮料日常水替新趋势
大数据·数说故事·消费者洞察
TDengine (老段)6 分钟前
TDengine 整体架构全景 — 深度解析
大数据·数据库·物联网·架构·时序数据库·tdengine·涛思数据
m0_716255008 分钟前
二、Hadoop 面试必背 | 三、Hive 面试必背
大数据·hadoop·面试
zz0723208 分钟前
Elasticsearch
大数据·elasticsearch·搜索引擎
LoneEon10 分钟前
Kafka集群搭建指南:KRaft模式彻底摒弃Zookeeper
分布式·kafka·centos
薪火铺子10 分钟前
分布式锁深度实战:从 Redis 到 Zookeeper 深度解析
redis·分布式·zookeeper
薪火铺子13 分钟前
ElasticSearch 聚合查询与性能优化实战
大数据·elasticsearch·性能优化
CableTech_SQH23 分钟前
F5G全光网络二层扁平架构技术拆解:OLT+ODN+ONU全链路原理详解
大数据·网络·5g·信息与通信
2601_9499369623 分钟前
2026年职业资格证书趋势分析:专业化与数字化融合视角
大数据