如何将Hive表的分区字段插入PG表对应的时间戳字段?

文章目录

1、背景描述

数据仓库的建设通常是为业务和决策服务的。在数仓开发的应用层阶段,BI可以直接从主题层/业务层取数,而前端需要根据具体的作图需求通过后端查询数据库

作图的指标需要根据主题层/业务层做查询计算,然后将查询的结果导出到数据库以供前端作图。这个过程可以称为从数据仓库到OLTP数据库的ETL过程

然而,在ETL过程中,最棘手的问题就是数据类型兼容性问题,简单来说就是如何做数据类型转化,因为ETL的输入和输出是不同的系统

ETL的实现通常需要专门的工具或软件,例如DataX、Sqoop、Kettle等。当然,在湖仓一体化的环境下,ETL的成本将极大降低,因为我们可以直接使用SQL实现

例如,如何将Hive表的分区字段(string)通过SQL插入PG表对应的时间戳(timestamp)字段?

2、场景分析

在PostgreSQL中,时间戳(timestamp)类型主要用于存储日期和时间的值,包括年、月、日、时、分、秒和小数秒

例如,我们已经创建了一个应用层PG表,该表包含了某个作图图表的一些指标字段和一个时间戳(timestamp)字段,现在需要将Hive查询计算的结果插入到该PG表,其中分区(string)字段对应到PG表的时间戳字段(timestamp)

如何进行转换以确保插入成功?

在PostgreSQL中,根据声明日期时间类型的方式,只需要使用日期时间的字符串格式yyyy-MM-dd HH:mm:ss,直接在字符串的前面使用数据类型进行转换就可以了

sql 复制代码
insert into pg_table (col1,col2,...,stat_date)
select 
col1,
col2,
...,
timestamp ('2024-06-01 00:00:00') as stat_date 
from hive_table

因此,我们只需要将Hive的分区字段转换成yyyy-MM-dd HH:mm:ss格式,并使用timestamp声明即可完成插入

总的来说,湖仓一体化场景下,ETL的成本大大降低了,但是企业对用工人员的要求更高了,工人不仅需要熟悉数据仓库,还需要熟悉一些常见的数据库,以及它们之间如何融合使用

相关推荐
RestCloud2 小时前
ETL数据集成丨使用ETLCloud实现MySQL与Greenplum数据同步
数据库·数据仓库·mysql·etl·数据集成·etlcloud
我非夏日3 小时前
基于Hadoop平台的电信客服数据的处理与分析③项目开发:搭建基于Hadoop的全分布式集群---任务10:Hive安装部署
大数据·hive·hadoop·分布式·大数据技术开发
大数据之家5 小时前
Apache Ranger 2.4.0 集成Hive 3.x(Kerbos)
hive·hadoop·apache
昊昊该干饭了6 小时前
Hive查询优化 - 面试工作不走弯路
数据仓库·hive·hadoop
天才的白鸟13 小时前
Linux安装Mysql
大数据·数据库·hive·hadoop·mysql·hdfs
依邻依伴1 天前
数据仓库面试题(二)
大数据·数据仓库·spark
天才的白鸟1 天前
hive命令和参数
数据仓库·hive·hadoop
大数据小朋友1 天前
小时候的子弹击中了现在的我-hive进阶:案例解析(第18天)
大数据·数据仓库·hive·hadoop·分布式·sql
B站计算机毕业设计超人1 天前
计算机毕业设计PyFlink+Spark+Hive民宿推荐系统 酒店推荐系统 民宿酒店数据分析可视化大屏 民宿爬虫 民宿大数据 知识图谱 机器学习
大数据·hive·hadoop·机器学习·数据分析·spark·推荐算法
四季予你661 天前
大数据期末复习——hadoop、hive等基础知识
大数据·hive·hadoop