Dbeaver,Hudi,Hive,Spark,Presto应用问题及解决措施梳理

近期频繁在mysql源端数据通过底层位Flink的平台进行数据接入至Hudi,过程中出现了一些问题,也通过了其他办法进行解决,现将整个过程的思路进行总结,以供大家共同学习进步。

问题1:基于Dbeaver工具,新建的Hudi表无法进行更新(即表结构,新增字段等);

解决措施:在Dbeaver中集成spark的包,通过sparkSQL的方式进行Hudi表的新建,解决表无法更新问题。

问题2:新建的Hudi表以及数据接入Hudi后,如何查看数据;

解决措施:在Dbeaver中集成Presto包,通过Presto的方式对Hudi数据及表进行查询。

问题3:基于Flink的平台,当源端数据更新或删除后,通过Hive方式输入时数据无法同步更新显示;

解决措施:在Flink的平台中,通过集成Hudi输入包,解决源端数据更新或删除后,平台未同步更新的问题;

总结:

1.hudi建表:在Dbeaver中使用spark方式(便于表管理);

2.Dbeaver中数据查询:presto方式(提升查询速度);

3.基于Flink的平台中数据链接方式:Hudi输入包(平台);

相关推荐
闯闯桑5 小时前
Spark 中spark.implicits._ 中的 toDF和DataFrame 类本身的 toDF 方法
大数据·ajax·spark·scala
Lx3529 小时前
Hadoop数据处理模式:批处理与流处理结合技巧
大数据·hadoop
皆过客,揽星河10 小时前
Linux上安装MySQL8详细教程
android·linux·hadoop·mysql·linux安装mysql·数据库安装·详细教程
core51212 小时前
Hive实战(二)
数据仓库·hive·hadoop
武子康13 小时前
大数据-94 Spark核心三剑客:RDD、DataFrame、Dataset与SparkSession全面解析
大数据·后端·spark
奋斗的蛋黄14 小时前
大数据与云计算知识点
大数据·hadoop·云计算
计算机编程-吉哥1 天前
大数据毕业设计-基于Python的中文起点网小说数据分析平台(高分计算机毕业设计选题·定制开发·真正大数据)
大数据·hadoop·计算机毕业设计选题·机器学习毕业设计·大数据毕业设计·大数据毕业设计选题推荐·大数据毕设项目
Agatha方艺璇1 天前
Hive基础简介
数据仓库·hive·hadoop
IT研究室1 天前
大数据毕业设计选题推荐-基于大数据的国内旅游景点游客数据分析系统-Spark-Hadoop-Bigdata
大数据·hadoop·spark·毕业设计·源码·数据可视化·bigdata
XueminXu1 天前
Spark提交任务的资源配置和优化
spark·并行度·spark-submit·driver-memory·num-executors·executor-memory·executor-cores