Hudi、Iceberg、Delta Lake、Paimon四种数据湖的建表核心语法

一、Hudi 核心建表语法（基于Spark SQL）

Hudi建表需明确表类型（COW/MOR）、主键、分区字段，依赖Spark配置或WITH参数指定核心属性。

1. MOR表（Merge-On-Read，实时写入优先）

sql 复制代码

CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  主键字段 类型,  -- 唯一标识记录
  预合并字段 类型,  -- 解决主键冲突（如update_time）
  分区字段 类型  -- 如dt（yyyyMMdd）
)
USING HUDI  -- 指定Hudi格式
[PARTITIONED BY (分区字段)]  -- 分区配置
LOCATION '存储路径'  -- 数据存储路径（HDFS/OSS/S3）
TBLPROPERTIES (
  'hoodie.table.type' = 'MERGE_ON_READ',  -- 表类型：MOR
  'hoodie.datasource.write.recordkey.field' = '主键字段',  -- 主键
  'hoodie.datasource.write.precombine.field' = '预合并字段',  -- 冲突解决字段
  'hoodie.datasource.write.hive_style_partitioning' = 'true'  -- 兼容Hive分区格式
);

2. COW表（Copy-On-Write，读取优先）

sql 复制代码

CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  主键字段 类型,
  分区字段 类型
)
USING HUDI
[PARTITIONED BY (分区字段)]
LOCATION '存储路径'
TBLPROPERTIES (
  'hoodie.table.type' = 'COPY_ON_WRITE',  -- 表类型：COW
  'hoodie.datasource.write.recordkey.field' = '主键字段',  -- 主键
  'hoodie.datasource.write.partitionpath.field' = '分区字段'  -- 分区字段
);

二、Iceberg 核心建表语法（基于Spark SQL）

Iceberg建表强调元数据管理和多引擎兼容，需指定分区和Catalog配置，支持显式/隐藏分区。

1. 基础分区表（显式分区）

sql 复制代码

-- 先配置Iceberg扩展（Spark环境）
SET spark.sql.extensions = org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions;

CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  分区字段 类型  -- 如dt、region
)
USING ICEBERG  -- 指定Iceberg格式
PARTITIONED BY (分区字段1, 分区字段2)  -- 支持复合分区
LOCATION '存储路径'
TBLPROPERTIES (
  'catalog' = 'hive'  -- 兼容Hive Metastore（可选）
);

2. 隐藏分区表（分区字段透明）

sql 复制代码

CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  时间字段 TIMESTAMP,
  -- 隐藏分区字段：由时间字段自动生成（如按日期分区）
  隐藏分区字段 DATE GENERATED ALWAYS AS DATE(时间字段)
)
USING ICEBERG
PARTITIONED BY (隐藏分区字段)  -- 分区字段对用户透明
LOCATION '存储路径';

三、Delta Lake 核心建表语法（基于Spark SQL）

Delta Lake建表依赖Spark生态和事务日志，支持流批一体，区分标准表和外部表。

1. 标准表（Managed Table，事务优先）

sql 复制代码

-- 先配置Delta扩展（Spark环境）
SET spark.sql.extensions = io.delta.sql.DeltaSparkSessionExtension;

CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  分区字段 类型
)
USING DELTA  -- 指定Delta格式
PARTITIONED BY (分区字段)  -- 分区配置
[LOCATION '存储路径']  -- 可选：不指定则使用默认路径
TBLPROPERTIES (
  'delta.logRetentionDuration' = '7 days'  -- 事务日志保留时间（可选）
);

2. 外部表（External Table，数据共享）

sql 复制代码

CREATE EXTERNAL TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...
)
USING DELTA
LOCATION '已有数据路径'  -- 必须指定：复用现有数据
TBLPROPERTIES ('delta.autoOptimize.optimizeWrite' = 'true');  -- 自动优化小文件（可选）

四、Paimon 核心建表语法（基于Flink SQL）

Paimon建表基于LSM-Tree架构，需指定主键、合并策略，支持主键表和Append-Only表。

1. 主键表（Primary Key Table，实时更新）

sql 复制代码

-- 先创建Paimon Catalog（Flink环境）
CREATE CATALOG paimon_catalog WITH (
  'type' = 'paimon',
  'warehouse' = '存储路径',  -- 数据仓库根路径
  'hive-metastore-uri' = 'thrift://hive-metastore:9083'  -- 对接Hive Metastore（可选）
);
USE CATALOG paimon_catalog;

CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  主键字段1 类型,
  主键字段2 类型,  -- 支持复合主键
  分区字段 类型
)
WITH (
  'primary-key' = '主键字段1,主键字段2',  -- 必选：主键定义
  'partition' = '分区字段',  -- 可选：分区配置
  'merge-engine' = 'deduplicate',  -- 合并策略（去重/部分更新/聚合）
  'changelog-producer' = 'input'  -- 生成变更日志（供下游消费，可选）
);

2. Append-Only表（仅追加，日志场景）

sql 复制代码

CREATE TABLE [IF NOT EXISTS] 表名 (
  字段名 类型 [COMMENT '注释'],
  ...,
  分区字段 类型
)
WITH (
  'partition' = '分区字段',  -- 可选：分区配置
  'write-mode' = 'append-only',  -- 必选：仅追加模式
  'file.format' = 'parquet'  -- 存储格式（默认parquet，可选）
);

核心语法对比总结

数据湖	核心标识	必选配置项	表类型区分参数
Hudi	`USING HUDI`	主键（recordkey）、表类型（table.type）	`hoodie.table.type = MERGE_ON_READ/COPY_ON_WRITE`
Iceberg	`USING ICEBERG`	分区字段、Catalog扩展配置	隐藏分区用`GENERATED ALWAYS AS`
Delta Lake	`USING DELTA`	（无强制，但事务依赖`_delta_log`）	外部表用`EXTERNAL`关键字
Paimon	`WITH`属性配置	主键表需`primary-key`、合并策略	`write-mode = append-only`（仅追加表）

核心语法聚焦"表类型标识+关键属性配置"，实际使用时需结合计算引擎的环境配置（如Spark/Flink扩展、Catalog）。