【Hudi】核心概念

https://www.bilibili.com/video/BV1ue4y1i7na?p=17\&vd_source=fa36a95b3c3fa4f32dd400f8cabddeaf

大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)

1 基础概念

1.1 时间轴(TimeLine)

1.2 文件布局(File Layout)


1.3 索引(Index)

1.4 表类型(Table Types)

COW (Copy on write) 只有列存基础数据文件*.parquet,没有行级的增量日志*.log文件, 每一个批次写完都会生成新的FileSlice。不需要其他tableservice(比如compact)

MOR(Merge on read) 有列存基础数据文件*.parquet 和行级的增量日志*.log文件

1.5 查询类型 (Query Types)

  1. Snapshot query 最新快照数据

  2. Increment query

  3. Read Optimized query 对MOR只读到最新parquet 为合并的log读不到




相关推荐
大大大大晴天️11 天前
Hudi技术内幕:Write Operations 深度解析
大数据·hudi
大大大大晴天️15 天前
Hudi技术内幕:Query Types全解析
大数据·hudi
大大大大晴天️20 天前
Hudi文件布局:COW与MOR表案例解析
大数据·hudi
大大大大晴天️21 天前
Hudi技术内幕:深入理解Hudi文件布局
大数据·hudi
james的分享1 个月前
湖仓一体之Apache Hudi
hudi·湖仓一体
大大大大晴天️3 个月前
Hudi 生产问题排障-乱序Upsert入湖数据丢失
大数据·flink·hudi
大大大大晴天️3 个月前
Flink-Hudi技术实践:Upsert场景开发实践
大数据·flink·hudi
大大大大晴天️3 个月前
Flink-Hudi技术实践:Insert场景开发实践
大数据·flink·hudi
RestCloud3 个月前
ETL与数据湖Hudi的集成与操作
数据仓库·etl·hudi·数据同步·数据集成平台
wasp5205 个月前
Hudi 客户端实现分析
java·开发语言·人工智能·hudi