Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。

使用代码:

python 复制代码
spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()

但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800的时间,但是往往会出现df_eff_dt为20240131的日期。

解决方案

通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。

为了解决日历问题返回的时间错误:

Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled来解决时间问题。

PySpark可以采用pandas的方式,解决问题,解决function如下。

python 复制代码
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']

参考内容

A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0

相关推荐
爱吃糖的z12 小时前
Elasticsearch Percolate Query使用优化案例-从2000到500ms
大数据·elasticsearch·搜索引擎
Hello.Reader12 小时前
Apache Flink 2.2.0 源码编译从环境准备到 PyFlink 打包一次讲清
大数据·flink·apache
黑客说12 小时前
独领无限流赛道:白日梦科技,重新定义AI时代的互动娱乐标杆
大数据·人工智能
综合热讯13 小时前
同健梦社区计划正式发布!
大数据
武子康13 小时前
大数据-247 离线数仓 - 电商分析 Hive 拉链表实战:订单历史状态增量刷新、闭链逻辑与错误排查
大数据·后端·apache hive
APO Research13 小时前
Virtual Commissioning产业趋势:数字孪生驱动的虚拟调试如何重塑工业自动化工程体系
大数据·自动化·智能制造·数字孪生·工业自动化·工程数字化
言午说数据13 小时前
数仓入门篇-数仓分层
大数据·面试
IPHWT 零软网络13 小时前
让前厅更高效,让服务更暖心——HWT2.0酒店话务台,重构宾客体验新范式
大数据·重构
源码技术栈13 小时前
整合物联网、大数据、人工智能等技术的Java智慧工地项目管理系统源码
大数据·人工智能·物联网·源码·二次开发·项目·智慧工地
番茄去哪了13 小时前
黑马点评实战篇千字总结
java·分布式·面向对象编程