Spark的timestamp 数据时间问题

使用Spark来处理国际业务数据,涉及到数据时区转换,在实际项目中出现时区转换问题。

使用代码:

python 复制代码
spark.conf.set("spark.sql.session.timeZone", "Asia/Hong_Kong")
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").collect()

但在实际Cluster 去run job的时候,如果给一个eff_dt为2024-02-01T00:00:00+0800的时间,但是往往会出现df_eff_dt为20240131的日期。

解决方案

通过参考databricks的一篇对timestamp的文档介绍,在databricks3.0以后的版本,就从之前的hybrid calendar(Julian和Gregorian calendar的合并),转换成使用Proleptic Gregorian calendar为规范来生成date和timestamp。但是本身如果使用dataframe的collect()方法, spark为了兼容性问题,仍然会返回hybrid calendar(java.sql.Date and java.sql.Timestamp)。

为了解决日历问题返回的时间错误:

Java 8 API 能够通过设置spark.sql.datetime.java8API.enabled来解决时间问题。

PySpark可以采用pandas的方式,解决问题,解决function如下。

python 复制代码
spark.selectExpr("date_format(eff_dt, 'yyyyMMdd') as df_eff_dt").toPandas()['df_eff_dt']

参考内容

A Comprehensive Look at Dates and Timestamps in Apache Spark™ 3.0

相关推荐
virtaitech14 小时前
趋动科技OrionX社区版免费申请
大数据·人工智能·科技·免费·池化技术
秃了也弱了。14 小时前
elasticSearch之API:文本分词,分词器的使用(下)
大数据·elasticsearch
财经三剑客14 小时前
蔚来汽车2025年共交付32.6万辆,同比增长46.9%
大数据·汽车
Wpa.wk14 小时前
Docker原理和使用场景(网络模式和分布式UI自动化环境部署)
linux·经验分享·分布式·测试工具·docker·性能监控
LJ979511114 小时前
告别“通稿地狱”:Infoseek智能媒体发布如何重塑内容分发的游戏规则
大数据·人工智能
草莓熊Lotso14 小时前
Qt 按钮与显示类控件实战:从交互到展示全攻略
大数据·开发语言·c++·人工智能·qt·microsoft·交互
TechubNews15 小时前
Techub News 專訪高鋒集團合夥人、Web3Labs行政總裁黃俊瑯:以資本與生態,賦能傳統企業Web3轉型
大数据·网络·人工智能·区块链
火星数据-Tina15 小时前
体育平台搭建:如何高效引入赛事直播与比分数据
大数据·前端·网络
Fabarta技术团队15 小时前
AI4S能否打破「十年磨一剑」研发困境?枫清科技智能体引擎激活科研跨域协同生产力
大数据·人工智能·microsoft
TOYOAUTOMATON15 小时前
节卡机器人 2026:核心动态与全景解析
大数据·人工智能·目标检测·机器人·自动化