Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。

使用代码:

python 复制代码
spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()

但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800的时间,但是往往会出现df_eff_dt为20240131的日期。

解决方案

通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。

为了解决日历问题返回的时间错误:

Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled来解决时间问题。

PySpark可以采用pandas的方式,解决问题,解决function如下。

python 复制代码
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']

参考内容

A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0

相关推荐
互联网江湖7 小时前
鹿客科技IPO,陈彬不想“站在门外”
大数据·人工智能·物联网
AI-小柒7 小时前
开发者一站式数据解决方案:通过 DataEyes API 一键配置智能数据采集与分析工具
大数据·人工智能·windows·http·macos
摇滚侠8 小时前
Java 项目教程《黑马商城-MQ 篇》,分布式架构项目,从开发到部署
java·分布式·架构
cxr8288 小时前
BMAD-METHOD 54个高级引导方法深度研究简报
大数据·人工智能
Crazy CodeCrafter8 小时前
租金要交,但客流为零,要关店了?
大数据·运维·经验分享·自动化·开源软件
蜜獾云9 小时前
Kafka(4)-kafka生产环境规划部署
分布式·kafka
最初的↘那颗心9 小时前
Spark Job 调度机制拆解:从 Action 算子到 Task 执行
大数据·spark·分布式计算
wuyaolong0079 小时前
PostgreSQL 中进行数据导入和导出
大数据·数据库·postgresql
balmtv10 小时前
Claude技术架构深度拆解:从宪法AI到混合推理智能体的演进之路
大数据·人工智能·架构
Lab_AI10 小时前
电子实验记录本(ELN)助力熙华药业核心竞争力提升
大数据·人工智能·实验室管理·eln·药物研发·ai制药·电子实验记录本