【Hudi】核心概念

https://www.bilibili.com/video/BV1ue4y1i7na?p=17\&vd_source=fa36a95b3c3fa4f32dd400f8cabddeaf

大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)

1 基础概念

1.1 时间轴(TimeLine)

1.2 文件布局(File Layout)


1.3 索引(Index)

1.4 表类型(Table Types)

COW (Copy on write) 只有列存基础数据文件*.parquet,没有行级的增量日志*.log文件, 每一个批次写完都会生成新的FileSlice。不需要其他tableservice(比如compact)

MOR(Merge on read) 有列存基础数据文件*.parquet 和行级的增量日志*.log文件

1.5 查询类型 (Query Types)

  1. Snapshot query 最新快照数据

  2. Increment query

  3. Read Optimized query 对MOR只读到最新parquet 为合并的log读不到




相关推荐
upward3375 个月前
尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【Hudi集成Spark】
大数据·笔记·spark·hudi·数据湖
Norris Huang5 个月前
数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比(Spark 引擎)
大数据·spark·iceberg·hudi·数据湖·paimon·deltalake
SelectDB技术团队5 个月前
Apache Doris + Apache Hudi 快速搭建指南|Lakehouse 使用手册(一)
大数据·doris·hudi·湖仓一体·lakehouse
Light Gao5 个月前
从数据仓库到数据湖(下):热门的数据湖开源框架
大数据·数据仓库·iceberg·hudi·数据湖·paimon·delta
Laurence10 个月前
Flink CDC 提取记录变更时间作为事件时间和 Hudi 表的 precombine.field 以及1970-01-01 取值问题
flink·hudi·cdc·事件时间·变更时间·precombine·1970-01-01
Laurence10 个月前
Flink Catalog 解读与同步 Hudi 表元数据的最佳实践
hive·flink·hudi·catalog·元数据·metastore·共用表
Laurence10 个月前
问题:Spark SQL 读不到 Flink 写入 Hudi 表的新数据,打开新 Session 才可见
sql·flink·spark·hudi·session·读不到·新数据
跟着大数据和AI去旅行1 年前
Apache Zeppelin 整合 Spark 和 Hudi
大数据·spark·hudi·zeppelin
Laurence1 年前
Flink 流式读取 Debezium CDC 数据写入 Hudi 表无法处理 -D / Delete 消息
flink·debezium·hudi·delete·cdc·无法处理·changelog