hudi

Laurence4 个月前
flink·hudi·cdc·事件时间·变更时间·precombine·1970-01-01
Flink CDC 提取记录变更时间作为事件时间和 Hudi 表的 precombine.field 以及1970-01-01 取值问题CDC 数据中的记录变更时间标记着这条记录在数据库中执行对应操作(创建/更新/删除)的时间,可以说是天然的“事件时间”,特别是对于那些本身没有记录时间字段的表来说就更加合适了。Flink 官方文档 也建议在使用 CDC 的情况下,优先使用 CDC 中的这个时间字段,这个时间更加精准。
TaiKuLaHa4 个月前
hudi
【Hudi】核心概念https://www.bilibili.com/video/BV1ue4y1i7na?p=17&vd_source=fa36a95b3c3fa4f32dd400f8cabddeaf 大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)
Laurence4 个月前
hive·flink·hudi·catalog·元数据·metastore·共用表
Flink Catalog 解读与同步 Hudi 表元数据的最佳实践在当前的大数据格局中,Spark / Hive / Flink 是最为主流的 ETL 或 Streaming 引擎,元数据方面,Hive Metastore 可以视为事实上的 Data Catalog 标准,而在数据湖存储格式上,又有 Hudi、Iceberg 这类新晋的框架,在这种复杂的格局下,用户希望能它们之间能相互打通,以便能根据应用场景灵活地选择技术栈,同时又不会出现技术上的“隔离”,一个非常典型的例子是:当我们选择了 Hudi 作为数据湖的统一存储格式后,我们希望不管是 Flink 还是 Spa
Laurence4 个月前
sql·flink·spark·hudi·session·读不到·新数据
问题:Spark SQL 读不到 Flink 写入 Hudi 表的新数据,打开新 Session 才可见使用 Flink 向 Hudi 表中写入数据,使用 Spark SQL 的 Shell 查询 Hudi 表(使用的是 Hudi HMS Catalog 统一管理和同步 Hudi 表的元数据),结果在 Spark 中只能查询到打开 Shell 之前表中的数据,之后通过 Flink 写入的数据不可见,但重新打开一个新的 Spark SQL Shell,就可以看到了。
跟着大数据和AI去旅行5 个月前
大数据·spark·hudi·zeppelin
Apache Zeppelin 整合 Spark 和 HudiSpecifying yarn-client & yarn-cluster in spark.master is not supported in Spark 3.x any more, instead you need to use spark.master and spark.submit.deployMode together.
Laurence5 个月前
flink·debezium·hudi·delete·cdc·无法处理·changelog
Flink 流式读取 Debezium CDC 数据写入 Hudi 表无法处理 -D / Delete 消息问题场景是:使用 Kafka Connect 的 Debezium MySQL Source Connector 将 MySQL 的 CDC 数据 (Avro 格式)接入到 Kafka 之后,通过 Flink 读取并解析这些 CDC 数据,然后以流式方式写入到 Hudi 表中,测试中发现,INSERT 和 UPDATE 消息都能很好的处理,但是,-D 类型的 Delete 消息被忽略了,即使已经开启了 ‘changelog.enabled’ = ‘true’ ,既然无效。测试版本:Flink 1.17.1
田昕峣 Richard6 个月前
java·hive·hadoop·hudi
Hudi集成Hive时的异常解决方法 java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat使用 Hive CLI 连接 Hive 3.1.2 并查询对应的 Hudi 映射的 Hive 表,发现如下异常:
upward3376 个月前
大数据·hudi·数据湖·基本概念·数据写·数据读
尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【概述、编译安装】
青涩的芒果汁6 个月前
flink·hudi
flink 实时写入 hudi 参数推荐数据湖任务并行度计算
别惹猪儿虫8 个月前
大数据·flink·hudi·数据湖
Hudi系列文章7-RFC24 Flink 写入流程优化Hudi 系列文章在这个这里查看 https://github.com/leosanqing/big-data-study
鸿乃江边鸟9 个月前
大数据·flink·hudi
Apache Hudi初探(五)(与flink的结合)--Flink 中hudi clean操作本文主要是具体说说Flink中的clean操作的实现在flink中主要是CleanFunction函数:
鸿乃江边鸟10 个月前
大数据·flink·hudi
Apache Hudi初探(三)(与flink的结合)--flink写hudi的操作(真正的写数据)在之前的文章中Apache Hudi初探(二)(与flink的结合)–flink写hudi的操作(JobManager端的提交操作) 有说到写hudi数据会涉及到写hudi真实数据以及写hudi元数据,这篇文章来说一下具体的实现
董可伦10 个月前
flink·hudi·数据湖
记录几个Hudi Flink使用问题及解决方法如题,记录几个Hudi Flink使用问题,学习和使用Hudi Flink有一段时间,虽然目前用的还不够深入,但是目前也遇到了几个问题,现在将遇到的这几个问题以及解决方式记录一下
田昕峣 Richard1 年前
大数据·hive·hudi·kerberos·数据湖
通过源代码修改使 Apache Hudi 支持 Kerberos 访问 Hive 的功能本文档主要用于阐释如何基于 Hudi 0.10.0 添加支持 Kerberos 认证权限的功能。