Apache Iceberg 数据湖表格式中的核心术语

  1. Data Files (数据文件)
    定义:这是 Iceberg 表中实际存储业务数据的文件。
    位置:通常位于表的数据存储目录下的 data目录中。
    格式:常见的格式是 Parquet(以 .parquet结尾),例如图片中的例子 00000-0-root_..._0025-00001.parquet。
    特性:每次对表进行更新(如插入、删除、修改)操作,都会产生新的数据文件。
  2. Snapshot (表快照)
    定义:快照代表了表在某个特定时刻的完整状态。
    内容:每个快照包含一个清单列表(Manifest List),这个清单列出了当时表所包含的所有数据文件(Data Files)。
    作用:就像是数据库在某个时间点的备份视图,查询引擎可以通过快照确定要读取哪些数据文件。
  3. Manifest List (清单列表)
    定义:这是一个元数据文件,它列出了构建当前快照(Snapshot)所需的所有清单文件(Manifest File)。
    存储内容:
    每个 Manifest File 的路径。
    每个 Manifest File 存储的数据文件的分区范围。
    增加或删除了多少个数据文件等信息。
    作用:在查询时,它可以帮助快速过滤掉不需要扫描的文件,从而加速查询。
  4. Manifest File (清单文件)
    定义:这也是一个元数据文件,它列出了组成快照(Snapshot)的具体数据文件(Data Files)的详细信息。
    存储内容(每行描述一个数据文件):
    数据文件的状态(新增、删除等)。
    文件路径。
    分区信息。
    列级别的统计信息(如每列的最大值、最小值、空值数等)------这是 Iceberg 高效剪枝(Pruning)的关键。
    文件大小和行数。
    格式:通常以 Avro 格式存储(以 .avro结尾),例如图片中的例子 8138fce4-40f7-41d7-82a5-922274d2abba-m0.avro。
    作用:查询引擎在扫描表时,会利用这里的列统计信息跳过不相关的数据文件(例如,查询条件要求年龄>30,而某文件统计显示年龄最大值25,则该文件可直接跳过)。
    总结关系链
    这四个术语构成了一个自下而上的层级结构,用于管理表的版本和数据:
    Data Files (数据文件) →被记录在 Manifest File (清单文件) 中 →多个 Manifest File 被记录在 Manifest List (清单列表) 中 →最终构成 Snapshot (表快照)。
相关推荐
C-20022 小时前
Elasticsearch 三节点集群部署
大数据·服务器·elasticsearch
无忧智库2 小时前
大型集团数字化转型SAP企业信息化ERP整体规划方案(PPT)
大数据
yumgpkpm3 小时前
【华为昇腾910B】在AI大模型推理速度与GPU显卡选择中地位
大数据·人工智能·华为
8K超高清3 小时前
2026传媒技术大会:博冠赋能融媒体制播
大数据·人工智能·科技·数码相机·计算机视觉·传媒·媒体
存在morning11 小时前
【GO语言开发实践】二 GO 并发快速上手
大数据·开发语言·golang
nassi_11 小时前
对AI工程问题的一些思考
大数据·人工智能·hadoop
沪漂阿龙14 小时前
面试题详解:检索链路设计全攻略——RAG 检索架构、查询理解、多路召回、混合检索、Rerank、上下文构造与评估闭环
大数据·人工智能·架构
金融小师妹14 小时前
基于AI通胀预期模型与美元流动性监测框架的黄金6周新低行分析:美元五连涨周期下贵金属定价机制重构研究
大数据·人工智能·重构·逻辑回归·线性回归
智慧医养结合软件开源15 小时前
智慧养老系统医生管理模块:专业赋能,筑牢老人诊疗安全防线
大数据·人工智能·安全·生活