hudi

如何将 Apache Hudi 接入 Ambari？完整部署与验证指南近期我已完成 Apache Hudi 在 Ambari 体系下的服务集成，支持一键安装、全节点 CLI 部署、组件生命周期托管，标志着 Hudi 在大数据平台体系中的可控性进一步增强。

【分布式】冰山（Iceberg）与哈迪（Hudi）对比的基准测试推荐超级课程：分布式系统行业正迅速向表格式（TableFormats）和湖仓架构（Lakehouse Architecture）靠拢，以实现数据湖（Data Lakes）的现代化。

使用 Doris 和 Hudi作为一种全新的开放式的数据管理架构，湖仓一体（Data Lakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求，在企业的大数据体系中已经得到越来越多的应用。

【Hudi-SQL DDL创建表语法】命令功能CREATE TABLE命令通过指定带有表属性的字段列表来创建Hudi Table。命令格式参数描述

HUDI-0.11.0 BUCKET index on Flink 特性试用在 0.10.1 版本下，使用默认的 index(FLINK_STATE)，在 upsert 模式下，几十亿级别的数据更新会消耗大量内存，并且检查点（checkpoint）时间过长。因此，切换到 0.11.0 的 BUCKET 索引。

尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【Hudi集成Spark】大数据新风口：Hudi数据湖（尚硅谷&Apache Hudi联合出品）尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【Hudi概述、Hudi编译安装】

数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比（Spark 引擎）当前，业界流行的集中数据湖表格式 Hudi/Iceberg/DeltaLake，和最近出现并且在国内比较火的 Paimon。我们现在看到的很多是针对流处理场景的读写性能测试，那么本篇文章我们将回归到大数据最基础的场景，对海量数据的批处理查询。本文主要介绍通过 TPC-DS 3TB 的数据的99个SQL，对这几种数据湖表格式的查询性能做一个全面的测试。

SelectDB技术团队

Apache Doris + Apache Hudi 快速搭建指南｜Lakehouse 使用手册（一）作者：SelectDB 技术团队导读：湖仓一体（Data Lakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中，Apache Doris 持续加深与数据湖的融合，已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门，我们将通过系列文章介绍 Apache Doris 与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南，包括 Hudi、Iceberg、Paimon、OSS、Delta Lake、Kudu、BigQ

从数据仓库到数据湖(下)：热门的数据湖开源框架在上一篇从数据仓库到数据湖(上)：数据湖导论文章中，我们简单讲述了数据湖的起源、使用原因及其本质。本篇文章将着重介绍市面上热门的数据湖开源框架，并分享笔者对当前数据湖技术的理解和看法。

Flink CDC 提取记录变更时间作为事件时间和 Hudi 表的 precombine.field 以及1970-01-01 取值问题CDC 数据中的记录变更时间标记着这条记录在数据库中执行对应操作（创建/更新/删除）的时间，可以说是天然的“事件时间”，特别是对于那些本身没有记录时间字段的表来说就更加合适了。Flink 官方文档也建议在使用 CDC 的情况下，优先使用 CDC 中的这个时间字段，这个时间更加精准。

【Hudi】核心概念https://www.bilibili.com/video/BV1ue4y1i7na?p=17&vd_source=fa36a95b3c3fa4f32dd400f8cabddeaf 大数据新风口：Hudi数据湖（尚硅谷&Apache Hudi联合出品）

Flink Catalog 解读与同步 Hudi 表元数据的最佳实践在当前的大数据格局中，Spark / Hive / Flink 是最为主流的 ETL 或 Streaming 引擎，元数据方面，Hive Metastore 可以视为事实上的 Data Catalog 标准，而在数据湖存储格式上，又有 Hudi、Iceberg 这类新晋的框架，在这种复杂的格局下，用户希望能它们之间能相互打通，以便能根据应用场景灵活地选择技术栈，同时又不会出现技术上的“隔离”，一个非常典型的例子是：当我们选择了 Hudi 作为数据湖的统一存储格式后，我们希望不管是 Flink 还是 Spa

问题：Spark SQL 读不到 Flink 写入 Hudi 表的新数据，打开新 Session 才可见使用 Flink 向 Hudi 表中写入数据，使用 Spark SQL 的 Shell 查询 Hudi 表（使用的是 Hudi HMS Catalog 统一管理和同步 Hudi 表的元数据），结果在 Spark 中只能查询到打开 Shell 之前表中的数据，之后通过 Flink 写入的数据不可见，但重新打开一个新的 Spark SQL Shell，就可以看到了。

跟着大数据和AI去旅行

Apache Zeppelin 整合 Spark 和 HudiSpecifying yarn-client & yarn-cluster in spark.master is not supported in Spark 3.x any more, instead you need to use spark.master and spark.submit.deployMode together.

Flink 流式读取 Debezium CDC 数据写入 Hudi 表无法处理 -D / Delete 消息问题场景是：使用 Kafka Connect 的 Debezium MySQL Source Connector 将 MySQL 的 CDC 数据（Avro 格式）接入到 Kafka 之后，通过 Flink 读取并解析这些 CDC 数据，然后以流式方式写入到 Hudi 表中，测试中发现，INSERT 和 UPDATE 消息都能很好的处理，但是，-D 类型的 Delete 消息被忽略了，即使已经开启了 ‘changelog.enabled’ = ‘true’ ，既然无效。测试版本：Flink 1.17.1

田昕峣 Richard

Hudi集成Hive时的异常解决方法 java.lang.ClassNotFoundException: org.apache.hudi.hadoop.HoodieParquetInputFormat使用 Hive CLI 连接 Hive 3.1.2 并查询对应的 Hudi 映射的 Hive 表，发现如下异常：

尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念（基本概念、数据写、数据读）】大数据新风口：Hudi数据湖（尚硅谷&Apache Hudi联合出品）尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【概述、编译安装】

青涩的芒果汁

flink 实时写入 hudi 参数推荐数据湖任务并行度计算

别惹猪儿虫

Hudi系列文章7-RFC24 Flink 写入流程优化Hudi 系列文章在这个这里查看 https://github.com/leosanqing/big-data-study

鸿乃江边鸟

Apache Hudi初探(五)(与flink的结合)--Flink 中hudi clean操作本文主要是具体说说Flink中的clean操作的实现在flink中主要是CleanFunction函数：