Hudi、Iceberg、Delta Lake、Paimon四种数据湖的建表核心语法

一、Hudi 核心建表语法(基于Spark SQL)

Hudi建表需明确表类型(COW/MOR)、主键、分区字段,依赖Spark配置或WITH参数指定核心属性。

1. MOR表(Merge-On-Read,实时写入优先)
sql 复制代码
CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  主键字段 类型,  -- 唯一标识记录
  预合并字段 类型,  -- 解决主键冲突(如update_time)
  分区字段 类型  -- 如dt(yyyyMMdd)
)
USING HUDI  -- 指定Hudi格式
[PARTITIONED BY (分区字段)]  -- 分区配置
LOCATION '存储路径'  -- 数据存储路径(HDFS/OSS/S3)
TBLPROPERTIES (
  'hoodie.table.type' = 'MERGE_ON_READ',  -- 表类型:MOR
  'hoodie.datasource.write.recordkey.field' = '主键字段',  -- 主键
  'hoodie.datasource.write.precombine.field' = '预合并字段',  -- 冲突解决字段
  'hoodie.datasource.write.hive_style_partitioning' = 'true'  -- 兼容Hive分区格式
);
2. COW表(Copy-On-Write,读取优先)
sql 复制代码
CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  主键字段 类型,
  分区字段 类型
)
USING HUDI
[PARTITIONED BY (分区字段)]
LOCATION '存储路径'
TBLPROPERTIES (
  'hoodie.table.type' = 'COPY_ON_WRITE',  -- 表类型:COW
  'hoodie.datasource.write.recordkey.field' = '主键字段',  -- 主键
  'hoodie.datasource.write.partitionpath.field' = '分区字段'  -- 分区字段
);

二、Iceberg 核心建表语法(基于Spark SQL)

Iceberg建表强调元数据管理和多引擎兼容,需指定分区和Catalog配置,支持显式/隐藏分区。

1. 基础分区表(显式分区)
sql 复制代码
-- 先配置Iceberg扩展(Spark环境)
SET spark.sql.extensions = org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions;

CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  分区字段 类型  -- 如dt、region
)
USING ICEBERG  -- 指定Iceberg格式
PARTITIONED BY (分区字段1, 分区字段2)  -- 支持复合分区
LOCATION '存储路径'
TBLPROPERTIES (
  'catalog' = 'hive'  -- 兼容Hive Metastore(可选)
);
2. 隐藏分区表(分区字段透明)
sql 复制代码
CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  时间字段 TIMESTAMP,
  -- 隐藏分区字段:由时间字段自动生成(如按日期分区)
  隐藏分区字段 DATE GENERATED ALWAYS AS DATE(时间字段)
)
USING ICEBERG
PARTITIONED BY (隐藏分区字段)  -- 分区字段对用户透明
LOCATION '存储路径';

三、Delta Lake 核心建表语法(基于Spark SQL)

Delta Lake建表依赖Spark生态和事务日志,支持流批一体,区分标准表和外部表。

1. 标准表(Managed Table,事务优先)
sql 复制代码
-- 先配置Delta扩展(Spark环境)
SET spark.sql.extensions = io.delta.sql.DeltaSparkSessionExtension;

CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  分区字段 类型
)
USING DELTA  -- 指定Delta格式
PARTITIONED BY (分区字段)  -- 分区配置
[LOCATION '存储路径']  -- 可选:不指定则使用默认路径
TBLPROPERTIES (
  'delta.logRetentionDuration' = '7 days'  -- 事务日志保留时间(可选)
);
2. 外部表(External Table,数据共享)
sql 复制代码
CREATE EXTERNAL TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...
)
USING DELTA
LOCATION '已有数据路径'  -- 必须指定:复用现有数据
TBLPROPERTIES ('delta.autoOptimize.optimizeWrite' = 'true');  -- 自动优化小文件(可选)

Paimon建表基于LSM-Tree架构,需指定主键、合并策略,支持主键表和Append-Only表。

1. 主键表(Primary Key Table,实时更新)
sql 复制代码
-- 先创建Paimon Catalog(Flink环境)
CREATE CATALOG paimon_catalog WITH (
  'type' = 'paimon',
  'warehouse' = '存储路径',  -- 数据仓库根路径
  'hive-metastore-uri' = 'thrift://hive-metastore:9083'  -- 对接Hive Metastore(可选)
);
USE CATALOG paimon_catalog;

CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  主键字段1 类型,
  主键字段2 类型,  -- 支持复合主键
  分区字段 类型
)
WITH (
  'primary-key' = '主键字段1,主键字段2',  -- 必选:主键定义
  'partition' = '分区字段',  -- 可选:分区配置
  'merge-engine' = 'deduplicate',  -- 合并策略(去重/部分更新/聚合)
  'changelog-producer' = 'input'  -- 生成变更日志(供下游消费,可选)
);
2. Append-Only表(仅追加,日志场景)
sql 复制代码
CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  分区字段 类型
)
WITH (
  'partition' = '分区字段',  -- 可选:分区配置
  'write-mode' = 'append-only',  -- 必选:仅追加模式
  'file.format' = 'parquet'  -- 存储格式(默认parquet,可选)
);

核心语法对比总结

数据湖 核心标识 必选配置项 表类型区分参数
Hudi USING HUDI 主键(recordkey)、表类型(table.type) hoodie.table.type = MERGE_ON_READ/COPY_ON_WRITE
Iceberg USING ICEBERG 分区字段、Catalog扩展配置 隐藏分区用GENERATED ALWAYS AS
Delta Lake USING DELTA (无强制,但事务依赖_delta_log 外部表用EXTERNAL关键字
Paimon WITH属性配置 主键表需primary-key、合并策略 write-mode = append-only(仅追加表)

核心语法聚焦"表类型标识+关键属性配置",实际使用时需结合计算引擎的环境配置(如Spark/Flink扩展、Catalog)。

相关推荐
极客数模9 小时前
【浅析赛题,一等奖水平】思路模型数据相关资料!2025 年“大湾区杯”粤港澳金融数学建模竞赛B 题 稳定币的综合评价与发展分析~
大数据·算法·数学建模·金融·数据挖掘·图论·1024程序员节
临风赏月9 小时前
Hudi、Iceberg、Delta Lake、Paimon 建表语法与场景示例
大数据
luoganttcc10 小时前
加快高水平科技自立自强,引领发展新质生产力 <十五五 规划节选>
大数据·人工智能·科技
TDengine (老段)11 小时前
益和热力性能优化实践:从 SQL Server 到 TDengine 时序数据库,写入快 20 秒、查询提速 5 倍
大数据·数据库·物联网·性能优化·时序数据库·tdengine·1024程序员节
秋已杰爱11 小时前
技术准备十五:Elasticsearch
大数据·elasticsearch·搜索引擎
青云交12 小时前
Java 大视界 -- Java 大数据在智能家居能源消耗模式分析与节能策略制定中的应用
java·大数据·智能家居·数据采集·能源消耗模式分析·节能策略制定·节能效果评估
B站计算机毕业设计之家13 小时前
python图像识别系统 AI多功能图像识别检测系统(11种识别功能)银行卡、植物、动物、通用票据、营业执照、身份证、车牌号、驾驶证、行驶证、车型、Logo✅
大数据·开发语言·人工智能·python·图像识别·1024程序员节·识别
数字化脑洞实验室17 小时前
如何理解不同行业AI决策系统的功能差异?
大数据·人工智能·算法
starandsea21 小时前
gitlab解决传过大文件后删除导致pack过大问题
大数据·elasticsearch·gitlab