Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。

使用代码:

python 复制代码
spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()

但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800的时间,但是往往会出现df_eff_dt为20240131的日期。

解决方案

通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。

为了解决日历问题返回的时间错误:

Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled来解决时间问题。

PySpark可以采用pandas的方式,解决问题,解决function如下。

python 复制代码
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']

参考内容

A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0

相关推荐
雷焰财经5 分钟前
持续推进国际金融合作:宇信科技的东南亚布局与价值共创之路
大数据·人工智能·科技
【赫兹威客】浩哥5 分钟前
【赫兹威客】伪分布式Kafka测试教程
分布式·kafka
Leo.yuan6 分钟前
中国特色的数据库需求:不是技术最强,而是领导汇报PPT最漂亮?
大数据·数据库·大屏端·技术选型
问君能有几多愁~23 分钟前
Git 上库流程培训文档
大数据·git·elasticsearch
CCPC不拿奖不改名43 分钟前
提示词工程(Prompt Engineering)全体系知识手册
大数据·人工智能·python·搜索引擎·prompt
ruxshui43 分钟前
Inceptor/hive中整数类型分桶键数据倾斜问题及优化方案
大数据·数据库·sql
亚林瓜子1 小时前
AWS中国云中的ETL之从Amazon Glue Data Catalog搬数据到MySQL(Glue版)
python·mysql·spark·etl·aws·glue·py
【赫兹威客】浩哥1 小时前
【赫兹威客】伪分布式Spark测试教程
大数据·分布式·spark
CDA数据分析师干货分享1 小时前
【CDA干货】预测建模——CLV与营收趋势预测——电商用户数据分析全流程:从数据到增长决策
大数据·数据挖掘·数据分析·cda证书·cda数据分析师
what丶k1 小时前
MySQL读写分离部署配置全解析(从原理到落地)
数据库·分布式·mysql