Dbeaver,Hudi,Hive,Spark,Presto应用问题及解决措施梳理

近期频繁在mysql源端数据通过底层位Flink的平台进行数据接入至Hudi,过程中出现了一些问题,也通过了其他办法进行解决,现将整个过程的思路进行总结,以供大家共同学习进步。

问题1:基于Dbeaver工具,新建的Hudi表无法进行更新(即表结构,新增字段等);

解决措施:在Dbeaver中集成spark的包,通过sparkSQL的方式进行Hudi表的新建,解决表无法更新问题。

问题2:新建的Hudi表以及数据接入Hudi后,如何查看数据;

解决措施:在Dbeaver中集成Presto包,通过Presto的方式对Hudi数据及表进行查询。

问题3:基于Flink的平台,当源端数据更新或删除后,通过Hive方式输入时数据无法同步更新显示;

解决措施:在Flink的平台中,通过集成Hudi输入包,解决源端数据更新或删除后,平台未同步更新的问题;

总结:

1.hudi建表:在Dbeaver中使用spark方式(便于表管理);

2.Dbeaver中数据查询:presto方式(提升查询速度);

3.基于Flink的平台中数据链接方式:Hudi输入包(平台);

相关推荐
Lx3524 小时前
Hadoop小文件处理难题:合并与优化的最佳实践
大数据·hadoop
君不见,青丝成雪8 小时前
Hadoop技术栈(四)HIVE常用函数汇总
大数据·数据库·数据仓库·hive·sql
最初的↘那颗心18 小时前
Flink Stream API 源码走读 - print()
java·大数据·hadoop·flink·实时计算
君不见,青丝成雪19 小时前
hadoop技术栈(九)Hbase替代方案
大数据·hadoop·hbase
晴天彩虹雨20 小时前
存算分离与云原生:数据平台的新基石
大数据·hadoop·云原生·spark
yatingliu201920 小时前
HiveQL | 个人学习笔记
hive·笔记·sql·学习
更深兼春远21 小时前
spark+scala安装部署
大数据·spark·scala
哈哈很哈哈1 天前
Spark 运行流程核心组件(三)任务执行
大数据·分布式·spark
最初的↘那颗心1 天前
Flink Stream API - 源码开发需求描述
java·大数据·hadoop·flink·实时计算
Lx3521 天前
MapReduce作业调试技巧:从本地测试到集群运行
大数据·hadoop