【Hudi】核心概念

https://www.bilibili.com/video/BV1ue4y1i7na?p=17\&vd_source=fa36a95b3c3fa4f32dd400f8cabddeaf

大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)

1 基础概念

1.1 时间轴(TimeLine)

1.2 文件布局(File Layout)


1.3 索引(Index)

1.4 表类型(Table Types)

COW (Copy on write) 只有列存基础数据文件*.parquet,没有行级的增量日志*.log文件, 每一个批次写完都会生成新的FileSlice。不需要其他tableservice(比如compact)

MOR(Merge on read) 有列存基础数据文件*.parquet 和行级的增量日志*.log文件

1.5 查询类型 (Query Types)

  1. Snapshot query 最新快照数据

  2. Increment query

  3. Read Optimized query 对MOR只读到最新parquet 为合并的log读不到




相关推荐
TTBIGDATA15 天前
如何将 Apache Hudi 接入 Ambari?完整部署与验证指南
大数据·hadoop·ambari·hudi·bigtop·湖仓·自定义组件集成
小涵2 个月前
【分布式】冰山(Iceberg)与哈迪(Hudi)对比的基准测试
大数据·数据库·分布式·阿里云·架构·iceberg·hudi
向阳12182 个月前
使用 Doris 和 Hudi
doris·hudi
王百万_2 个月前
【Hudi-SQL DDL创建表语法】
数据治理·hudi·湖仓一体·ddl·华为mrs·create table
_Magic4 个月前
HUDI-0.11.0 BUCKET index on Flink 特性试用
flink·hudi
upward33710 个月前
尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【Hudi集成Spark】
大数据·笔记·spark·hudi·数据湖
Norris Huang10 个月前
数据湖表格式 Hudi/Iceberg/DeltaLake/Paimon TPCDS 性能对比(Spark 引擎)
大数据·spark·iceberg·hudi·数据湖·paimon·deltalake
SelectDB技术团队10 个月前
Apache Doris + Apache Hudi 快速搭建指南|Lakehouse 使用手册(一)
大数据·doris·hudi·湖仓一体·lakehouse
Light Gao10 个月前
从数据仓库到数据湖(下):热门的数据湖开源框架
大数据·数据仓库·iceberg·hudi·数据湖·paimon·delta
Laurence1 年前
Flink CDC 提取记录变更时间作为事件时间和 Hudi 表的 precombine.field 以及1970-01-01 取值问题
flink·hudi·cdc·事件时间·变更时间·precombine·1970-01-01