【Hudi】核心概念

TaiKuLaHa2024-03-02 20:05

https://www.bilibili.com/video/BV1ue4y1i7na?p=17\&vd_source=fa36a95b3c3fa4f32dd400f8cabddeaf

大数据新风口：Hudi数据湖（尚硅谷&Apache Hudi联合出品）

1 基础概念

1.1 时间轴(TimeLine)

1.2 文件布局(File Layout)

1.3 索引(Index)

1.4 表类型(Table Types)

COW (Copy on write) 只有列存基础数据文件*.parquet，没有行级的增量日志*.log文件, 每一个批次写完都会生成新的FileSlice。不需要其他tableservice(比如compact)

MOR(Merge on read) 有列存基础数据文件*.parquet 和行级的增量日志*.log文件

1.5 查询类型 (Query Types)

Snapshot query 最新快照数据
Increment query
Read Optimized query 对MOR只读到最新parquet 为合并的log读不到

上一篇：cv_bridge连接自定义版本的opencv

下一篇：MFC web文件 CHttpFile的使用初探

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03AI科技热点日报 | 2026年07月01日 04幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 07Codex 下载安装指南：Windows 和 macOS 官方版下载 082026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？09昇腾910B系列芯片完全指南：四款型号对比、服务器选型与大模型部署实战 102026 年 AI 大模型 & AI 编程工具实战全总结