Dbeaver,Hudi,Hive,Spark,Presto应用问题及解决措施梳理

近期频繁在mysql源端数据通过底层位Flink的平台进行数据接入至Hudi,过程中出现了一些问题,也通过了其他办法进行解决,现将整个过程的思路进行总结,以供大家共同学习进步。

问题1:基于Dbeaver工具,新建的Hudi表无法进行更新(即表结构,新增字段等);

解决措施:在Dbeaver中集成spark的包,通过sparkSQL的方式进行Hudi表的新建,解决表无法更新问题。

问题2:新建的Hudi表以及数据接入Hudi后,如何查看数据;

解决措施:在Dbeaver中集成Presto包,通过Presto的方式对Hudi数据及表进行查询。

问题3:基于Flink的平台,当源端数据更新或删除后,通过Hive方式输入时数据无法同步更新显示;

解决措施:在Flink的平台中,通过集成Hudi输入包,解决源端数据更新或删除后,平台未同步更新的问题;

总结:

1.hudi建表:在Dbeaver中使用spark方式(便于表管理);

2.Dbeaver中数据查询:presto方式(提升查询速度);

3.基于Flink的平台中数据链接方式:Hudi输入包(平台);

相关推荐
数据仓库_晨曦7 小时前
【无标题】
大数据·sql·spark
元让_vincent7 小时前
Spark 2.0:面向 Web 的 3DGS 可视化与大场景渲染平台详解
前端·3d·spark·渲染·轻量化·3dgs·lod
兔子宇航员03018 小时前
HIVE SQL 中 NULL 值在 JOIN 和 GROUP BY 中的致命陷阱与解决方案
hive·hadoop·sql
penngo11 小时前
FlowLoom:基于 Apache Spark 的可视化数据处理平台
大数据·spark·apache
段一凡-华北理工大学11 小时前
工业领域的Hadoop架构学习~系列文章02:HDFS架构深度剖析
大数据·人工智能·hadoop·学习·架构·高炉炼铁
Irene199112 小时前
Oracle(字符集分为服务端和客户端) 和 Hive(依赖 MySQL(或 PostgreSQL)存储元数据)字符集编码格式查询,中文乱码处理
hive·sql·oracle
极光代码工作室13 小时前
基于Spark的电商用户点击流分析系统
大数据·python·数据分析·spark·数据可视化
段一凡-华北理工大学13 小时前
工业领域的Hadoop架构学习~系列文章03:MapReduce编程模型深度解读
大数据·人工智能·hadoop·学习·架构·高炉炼铁·高炉智能化
无关868813 小时前
StarRocks 存算分离 + Spark + Hive Metastore + MinIO 数据湖搭建全流程
大数据·hive·spark
大帅点兵1 天前
设计一个金融交易监控系统
大数据·clickhouse·flink·spark·kafka·hbase