hive/spark sql中unix_timestamp 函数的坑以及时间戳相关的转换

我用的是hive版本是3.1.3,spark版本是3.3.1,它们的unix_timestamp 函数在同样的语句下转换出来的时间戳是完全不同的,如下试验所示

1.unix_timestamp 函数的坑

上图试验中我同样的计算 2025-07-11 10:00:00 时间点对应的时间戳,但是尽管在我换了时区的情况下,他们得到的是同一个答案,都是 1752228000 ,没错,这个时间戳就是UTC+0时间下的对应2025-07-11 10:00:00的时间戳,这点就有点坑,因为我们变化了时区,肯定是想要它转成对应时区下的时间戳。

在spark-sql中是会根据所给的时间戳改变的,这里有一个细节,特别需要注意,spark.sql.session.timeZone Zone一定要大写,如果小写的话,就会跟hive一样达不到随着时间戳改变而变化

2. 时间戳和对应时区的时间之间的转换

首先需要明确的一点是时间戳的定义:它是指从自"Unix纪元"(1970-01-01 00:00:00 UTC)以来经过的秒数或毫秒数 所有它是一个绝对值,不会应为时区的变化而变化,而时区是指全球各个地区自己定义一天时间的方法。

基于上面对时间戳和时区概念的理解,我们提出一个结论,给定一个时间戳比如 1752163200 ,它是绝对的,也是不会变化的,根据这个时间戳,然后各地区根据自己所在的时区可以解析出不同的时间,比如,它表示 Asia/Shanghai(UTC+8) 时区的 2025-07-11 00:00:00 ,同时也表示Asia/Seoul(UTC+9) 时区的2025-07-11 01:00:00,同时也表示America/New_York(UTC-4)2025-07-10 12:00:00时区的等等

这是时间戳转根据时区转时间,我们可以明显看出来在时间戳转时间的时候,如果知道了一个转的结果,比如知道 Asia/Shanghai(UTC+8) 转出来的时间是 2025-07-11 00:00:00 ,那对应的 America/New_York(UTC-4) 的时间不用再用时间戳转,直接用目标时区的值(-4)减去前面基础时区的值(+8),得到-12(-4-8=-12),最后用基础时间加上前面计算出来的值就可以了,也就是2025-07-11 00:00:00加上-12个小时也就是2025-07-10 12:00:00。

如果是时间转时间戳的时候,就正好相反,用基础时区的值减去目标时区的值(由于这是时间戳计算,最后需要进行6060处理),然后和对基础时区转出来的时间戳做加法(减出来是负数就是减)

相关推荐
DokiDoki之父2 小时前
Mybatis—入门 & (配置)SQL提示和日志输出
数据库·sql·mybatis
Q26433650238 小时前
【有源码】基于Python与Spark的火锅店数据可视化分析系统-基于机器学习的火锅店综合竞争力评估与可视化分析-基于用户画像聚类的火锅店市场细分与可视化研究
大数据·hadoop·python·机器学习·数据分析·spark·毕业设计
潘达斯奈基~9 小时前
spark性能优化1:通过依赖关系重组优化Spark性能:宽窄依赖集中处理实践
大数据·性能优化·spark
TDengine (老段)18 小时前
TDengine 数学函数 DEGRESS 用户手册
大数据·数据库·sql·物联网·时序数据库·iot·tdengine
武子康18 小时前
Java-152 深入浅出 MongoDB 索引详解 从 MongoDB B-树 到 MySQL B+树 索引机制、数据结构与应用场景的全面对比分析
java·开发语言·数据库·sql·mongodb·性能优化·nosql
starfalling102419 小时前
【hive】一种高效增量表的实现
hive
武昌库里写JAVA1 天前
C语言 函数指针和指针函数区别 - C语言零基础入门教程
vue.js·spring boot·sql·layui·课程设计
D明明就是我1 天前
Hive 拉链表
数据仓库·hive·hadoop
蒙特卡洛的随机游走1 天前
Spark核心数据(RDD、DataFrame 和 Dataset)
大数据·分布式·spark
蒙特卡洛的随机游走1 天前
Spark的宽依赖与窄依赖
大数据·前端·spark