Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。

使用代码:

python 复制代码
spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()

但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800的时间,但是往往会出现df_eff_dt为20240131的日期。

解决方案

通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。

为了解决日历问题返回的时间错误:

Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled来解决时间问题。

PySpark可以采用pandas的方式,解决问题,解决function如下。

python 复制代码
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']

参考内容

A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0

相关推荐
老马聊技术1 分钟前
HBase单节点环境搭建详细教程
大数据·数据库·hbase
xerthwis26 分钟前
Flink:从“微批”到“真流”,数据处理的哲学转向与时代抉择
大数据·flink
Wang's Blog33 分钟前
Kafka: 消费者高级实践之分区控制、多线程处理与 Offset 管理
分布式·kafka
jqpwxt34 分钟前
启点创新智慧景区服务平台,智慧景区数字驾驶舱建设
大数据·人工智能
阿里云大数据AI技术36 分钟前
Hologres Dynamic Table:高效增量刷新,构建实时统一数仓的核心利器
大数据·人工智能·阿里云·实时数仓·hologres
Familyism39 分钟前
ES基础入门
大数据·elasticsearch·搜索引擎
跨境卫士情报站1 小时前
摆脱砍单魔咒!Temu 自养号系统化采购,低成本高安全
大数据·人工智能·安全·跨境电商·亚马逊·防关联
老鱼说AI1 小时前
经典论文精读第一期:DeepSeek-R1-Zero ——RL奇迹
人工智能·分布式·深度学习·神经网络·自然语言处理·nlp·transformer
AI营销实验室1 小时前
AI CRM系统升级,原圈科技赋能销冠复制
大数据·人工智能
snpgroupcn1 小时前
SAP系统动态归档与系统退役核心区别解析,以及会被问到的问题?
大数据