Dbeaver,Hudi,Hive,Spark,Presto应用问题及解决措施梳理

近期频繁在mysql源端数据通过底层位Flink的平台进行数据接入至Hudi,过程中出现了一些问题,也通过了其他办法进行解决,现将整个过程的思路进行总结,以供大家共同学习进步。

问题1:基于Dbeaver工具,新建的Hudi表无法进行更新(即表结构,新增字段等);

解决措施:在Dbeaver中集成spark的包,通过sparkSQL的方式进行Hudi表的新建,解决表无法更新问题。

问题2:新建的Hudi表以及数据接入Hudi后,如何查看数据;

解决措施:在Dbeaver中集成Presto包,通过Presto的方式对Hudi数据及表进行查询。

问题3:基于Flink的平台,当源端数据更新或删除后,通过Hive方式输入时数据无法同步更新显示;

解决措施:在Flink的平台中,通过集成Hudi输入包,解决源端数据更新或删除后,平台未同步更新的问题;

总结:

1.hudi建表:在Dbeaver中使用spark方式(便于表管理);

2.Dbeaver中数据查询:presto方式(提升查询速度);

3.基于Flink的平台中数据链接方式:Hudi输入包(平台);

相关推荐
zgl_2005377910 分钟前
源代码:ZGLanguage 解析SQL数据血缘 之 显示 UPDATE SQL 结构图
大数据·数据库·数据仓库·hadoop·数据治理·sql解析·数据血缘
毕不了业的硏䆒僧1 小时前
NVIDIA DGX Spark | Ubuntu cuda13.0安装Pytorch GPU版本
pytorch·ubuntu·spark
徐先生 @_@|||2 小时前
基于Spark配置+缓存策略+Junpyter Notebook 实现Spark数据加速调试
大数据·分布式·缓存·spark
wasp5203 小时前
Hudi Spark 集成分析
数据库·spark·hudi·数据湖
無森~3 小时前
Hive核心SQL(基础)
hive·hadoop·sql
徐先生 @_@|||3 小时前
大数据技术栈演进:从MapReduce到云原生计算的全面对比(2026年)
大数据·hadoop·云原生·spark·mapreduce
徐先生 @_@|||3 小时前
大数据处理框架(Hadoop VS PySpark)
大数据·hadoop·分布式·spark·k8s·yarn
吃辣我第一3 小时前
SuperMap GPA如何限制Spark使用端口范围
服务器·spark·php
yumgpkpm7 小时前
银行智能数据平台在Cloudera CDH6\CDP 7\CMP 7平台下的具体使用配置流程
大数据·hive·hadoop·数据挖掘·flink·spark·cloudera
Francek Chen1 天前
【大数据基础】大数据处理架构Hadoop:02 Hadoop生态系统
大数据·hadoop·分布式·hdfs·架构