Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。

使用代码:

python 复制代码
spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()

但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800的时间,但是往往会出现df_eff_dt为20240131的日期。

解决方案

通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。

为了解决日历问题返回的时间错误:

Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled来解决时间问题。

PySpark可以采用pandas的方式,解决问题,解决function如下。

python 复制代码
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']

参考内容

A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0

相关推荐
七夜zippoe13 小时前
OpenClaw 记忆维护:自动整理与归档
大数据·网络·数据库·openclaw·记忆维护
成长之路51413 小时前
【数据集】省级金融发展水平数据(2000-2024年)
大数据
G***技13 小时前
国产芯·低能耗:VT91轻量化云终端护航金融信息安全
大数据
tiger从容淡定是人生13 小时前
Vibe Coding——中国信创生态真正的“超级加速器”
大数据·人工智能·vibe coding·信创战略
叶沧ii大数据全栈呀13 小时前
【数据智能】从“提需求等排期“到“数据追着人跑“:数据中台到Data Agent的变革复盘
大数据·人工智能·ai编程
2601_9571909013 小时前
超元力元宇宙科幻乐园整馆方案——数字科技重塑文旅研学新生态
大数据·人工智能·科技
飞飞传输13 小时前
服务器数据自动同步如何实现?企业级方案避免文件丢失
大数据·运维·安全
啊哈一半醒13 小时前
Git 常用命令总结(适合刚接触项目协作的人)
大数据·搜索引擎·个人开发
卧室小白13 小时前
ELK+Kafka实战
分布式·elk·kafka
OYangxf13 小时前
Git分支管理
大数据·git·elasticsearch