大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)
- B站直达:https://www.bilibili.com/video/BV1ue4y1i7na 尚硅谷数据湖Hudi视频教程
- 百度网盘:https://pan.baidu.com/s/1NkPku5Pp-l0gfgoo63hR-Q?pwd=yyds
- 阿里云盘:https://www.aliyundrive.com/s/uMCmjb8nGaC(教程配套资料请从百度网盘下载)
尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【概述、编译安装】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【集成Spark】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记04【集成Flink】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记05【集成Hive】
目录
[第3章 核心概念](#第3章 核心概念)
第3章 核心概念
010
++第3章 核心概念++
++3.1 基本概念++
++3.1.1 时间轴(TimeLine)++
011
++3.1.2 文件布局(File Layout)++
012
++3.1.2 文件布局(File Layout)++
013
++3.1.3 索引(Index)++
1)原理
014
++3.1.3 索引(Index)++
2)索引选项
015
++3.1.3 索引(Index)++
3)全局索引与非全局索引
016
++3.1.3 索引(Index)++
4)索引的选择策略
017
++3.1.4 表类型(Table Types)++
1)Copy On Write
018
++3.1.4 表类型(Table Types)++
2)Merge On Read
019
++3.1.4 表类型(Table Types)++
3)COW与MOR的对比
cow:批处理、mor:流批都行,更推荐流。
020
++3.1.5 查询类型(Query Types)++
1)Snapshot Queries 快照查询:全量最新。
2)Incremental Queries
3)Read Optimized Queries
021
++3.1.5 查询类型(Query Types)++
4)不同表支持的查询类型
022
++3.2 数据写++
++3.2.1 写操作++
++3.2.2 写流程(UPSERT)++
1)Copy On Write
2)Merge On Read
023
++3.2.3 写流程(INSERT)++
1)Copy On Write
2)Merge On Read
++3.2.4 写流程(INSERT OVERWRITE)++
1)COW
2)MOR
3)优点
4)缺点
024
++3.2.5 Key 生成策略++
++3.2.6 删除策略++
1)逻辑删
2)物理删
++3.2.7 总结++
025
++3.3 数据读++
++3.3.1 Snapshot读++
++3.3.2 Incremantal读++
++3.3.3 Streaming读++
++3.4 Compaction++