Dbeaver,Hudi,Hive,Spark,Presto应用问题及解决措施梳理

近期频繁在mysql源端数据通过底层位Flink的平台进行数据接入至Hudi,过程中出现了一些问题,也通过了其他办法进行解决,现将整个过程的思路进行总结,以供大家共同学习进步。

问题1:基于Dbeaver工具,新建的Hudi表无法进行更新(即表结构,新增字段等);

解决措施:在Dbeaver中集成spark的包,通过sparkSQL的方式进行Hudi表的新建,解决表无法更新问题。

问题2:新建的Hudi表以及数据接入Hudi后,如何查看数据;

解决措施:在Dbeaver中集成Presto包,通过Presto的方式对Hudi数据及表进行查询。

问题3:基于Flink的平台,当源端数据更新或删除后,通过Hive方式输入时数据无法同步更新显示;

解决措施:在Flink的平台中,通过集成Hudi输入包,解决源端数据更新或删除后,平台未同步更新的问题;

总结:

1.hudi建表:在Dbeaver中使用spark方式(便于表管理);

2.Dbeaver中数据查询:presto方式(提升查询速度);

3.基于Flink的平台中数据链接方式:Hudi输入包(平台);

相关推荐
weixin_4723394619 分钟前
Doris查询Hive数据:实现高效跨数据源分析的实践指南
数据仓库·hive·hadoop
火龙谷2 小时前
【hadoop】相关集群开启命令
大数据·hadoop·分布式
神奇侠202417 小时前
Hive SQL常见操作
hive·hadoop·sql
itachi-uchiha1 天前
Docker部署Hive大数据组件
大数据·hive·docker
viperrrrrrrrrr71 天前
大数据学习(131)-Hive数据分析函数总结
大数据·hive·学习
qq_408413391 天前
spark 执行 hive sql数据丢失
hive·sql·spark
后端码匠1 天前
Spark 单机模式部署与启动
大数据·分布式·spark
qq_463944861 天前
【Spark征服之路-2.3-Spark运行架构】
大数据·架构·spark
TDengine (老段)1 天前
TDengine 替换 Hadoop,彻底解决数据丢失问题 !
大数据·数据库·hadoop·物联网·时序数据库·tdengine·涛思数据
yt948322 天前
如何在IDE中通过Spark操作Hive
ide·hive·spark