hudi

upward3374 个月前
大数据·笔记·spark·hudi·数据湖
尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【Hudi集成Spark】大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【Hudi概述、Hudi编译安装】
Norris Huang4 个月前
大数据·spark·iceberg·hudi·数据湖·paimon·deltalake
数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比(Spark 引擎)当前,业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake,和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试,那么本篇文章我们将回归到大数据最基础的场景,对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQL,对这几种数据湖表格式的查询性能做一个全面的测试。
SelectDB技术团队4 个月前
大数据·doris·hudi·湖仓一体·lakehouse
Apache Doris + Apache Hudi 快速搭建指南|Lakehouse 使用手册(一)作者:SelectDB 技术团队导读:湖仓一体(Data Lakehouse)融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势,帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中,Apache Doris 持续加深与数据湖的融合,已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门,我们将通过系列文章介绍 Apache Doris 与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南,包括 Hudi、Iceberg、Paimon、OSS、Delta Lake、Kudu、BigQ
Light Gao4 个月前
大数据·数据仓库·iceberg·hudi·数据湖·paimon·delta
从数据仓库到数据湖(下):热门的数据湖开源框架在上一篇从数据仓库到数据湖(上):数据湖导论文章中,我们简单讲述了数据湖的起源、使用原因及其本质。本篇文章将着重介绍市面上热门的数据湖开源框架,并分享笔者对当前数据湖技术的理解和看法。
Laurence8 个月前
flink·hudi·cdc·事件时间·变更时间·precombine·1970-01-01
Flink CDC 提取记录变更时间作为事件时间和 Hudi 表的 precombine.field 以及1970-01-01 取值问题CDC 数据中的记录变更时间标记着这条记录在数据库中执行对应操作(创建/更新/删除)的时间,可以说是天然的“事件时间”,特别是对于那些本身没有记录时间字段的表来说就更加合适了。Flink 官方文档 也建议在使用 CDC 的情况下,优先使用 CDC 中的这个时间字段,这个时间更加精准。
TaiKuLaHa8 个月前
hudi
【Hudi】核心概念https://www.bilibili.com/video/BV1ue4y1i7na?p=17&vd_source=fa36a95b3c3fa4f32dd400f8cabddeaf 大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)
Laurence8 个月前
hive·flink·hudi·catalog·元数据·metastore·共用表
Flink Catalog 解读与同步 Hudi 表元数据的最佳实践在当前的大数据格局中,Spark / Hive / Flink 是最为主流的 ETL 或 Streaming 引擎,元数据方面,Hive Metastore 可以视为事实上的 Data Catalog 标准,而在数据湖存储格式上,又有 Hudi、Iceberg 这类新晋的框架,在这种复杂的格局下,用户希望能它们之间能相互打通,以便能根据应用场景灵活地选择技术栈,同时又不会出现技术上的“隔离”,一个非常典型的例子是:当我们选择了 Hudi 作为数据湖的统一存储格式后,我们希望不管是 Flink 还是 Spa
Laurence9 个月前
sql·flink·spark·hudi·session·读不到·新数据
问题:Spark SQL 读不到 Flink 写入 Hudi 表的新数据,打开新 Session 才可见使用 Flink 向 Hudi 表中写入数据,使用 Spark SQL 的 Shell 查询 Hudi 表(使用的是 Hudi HMS Catalog 统一管理和同步 Hudi 表的元数据),结果在 Spark 中只能查询到打开 Shell 之前表中的数据,之后通过 Flink 写入的数据不可见,但重新打开一个新的 Spark SQL Shell,就可以看到了。
跟着大数据和AI去旅行9 个月前
大数据·spark·hudi·zeppelin
Apache Zeppelin 整合 Spark 和 HudiSpecifying yarn-client & yarn-cluster in spark.master is not supported in Spark 3.x any more, instead you need to use spark.master and spark.submit.deployMode together.
Laurence9 个月前
flink·debezium·hudi·delete·cdc·无法处理·changelog
Flink 流式读取 Debezium CDC 数据写入 Hudi 表无法处理 -D / Delete 消息问题场景是:使用 Kafka Connect 的 Debezium MySQL Source Connector 将 MySQL 的 CDC 数据 (Avro 格式)接入到 Kafka 之后,通过 Flink 读取并解析这些 CDC 数据,然后以流式方式写入到 Hudi 表中,测试中发现,INSERT 和 UPDATE 消息都能很好的处理,但是,-D 类型的 Delete 消息被忽略了,即使已经开启了 ‘changelog.enabled’ = ‘true’ ,既然无效。测试版本:Flink 1.17.1
田昕峣 Richard10 个月前
java·hive·hadoop·hudi
Hudi集成Hive时的异常解决方法 java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat使用 Hive CLI 连接 Hive 3.1.2 并查询对应的 Hudi 映射的 Hive 表,发现如下异常:
upward33710 个月前
大数据·hudi·数据湖·基本概念·数据写·数据读
尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【概述、编译安装】
青涩的芒果汁10 个月前
flink·hudi
flink 实时写入 hudi 参数推荐数据湖任务并行度计算
别惹猪儿虫1 年前
大数据·flink·hudi·数据湖
Hudi系列文章7-RFC24 Flink 写入流程优化Hudi 系列文章在这个这里查看 https://github.com/leosanqing/big-data-study
鸿乃江边鸟1 年前
大数据·flink·hudi
Apache Hudi初探(五)(与flink的结合)--Flink 中hudi clean操作本文主要是具体说说Flink中的clean操作的实现在flink中主要是CleanFunction函数:
鸿乃江边鸟1 年前
大数据·flink·hudi
Apache Hudi初探(三)(与flink的结合)--flink写hudi的操作(真正的写数据)在之前的文章中Apache Hudi初探(二)(与flink的结合)–flink写hudi的操作(JobManager端的提交操作) 有说到写hudi数据会涉及到写hudi真实数据以及写hudi元数据,这篇文章来说一下具体的实现
董可伦1 年前
flink·hudi·数据湖
记录几个Hudi Flink使用问题及解决方法如题,记录几个Hudi Flink使用问题,学习和使用Hudi Flink有一段时间,虽然目前用的还不够深入,但是目前也遇到了几个问题,现在将遇到的这几个问题以及解决方式记录一下
田昕峣 Richard1 年前
大数据·hive·hudi·kerberos·数据湖
通过源代码修改使 Apache Hudi 支持 Kerberos 访问 Hive 的功能本文档主要用于阐释如何基于 Hudi 0.10.0 添加支持 Kerberos 认证权限的功能。