Iceberg在Hadoop集群使用步骤(适配AI大模型)

Iceberg在Hadoop集群使用步骤

Cloudera Data Platform (CDP 集群中使用 Apache Iceberg ,需结合 CDP 的集成能力(如 Spark 3、Hive Metastore、Catalog 支持等)。以下是 完整、可操作的使用步骤 (适用于 CDP Private Cloud Base/Experience 7.1.7+CDP Public Cloud,截至 2025 年):


一、前提条件

1. CDP 版本要求

  • CDP Private Cloud:7.1.7 SP1 或更高(推荐 7.2+)
  • CDP Public Cloud :已启用 Data Engineering (DE)Data Warehouse (DW) 环境
  • 已安装 Spark 3.x(Iceberg 仅支持 Spark 3+)

2. 组件依赖

组件 要求
Spark ≥ 3.1(推荐 3.2+)
Hive Metastore 必须运行(Iceberg 默认使用 Hive Catalog)
存储 HDFS / S3A / Ozone(需配置访问权限)
Cloudera Manager ≥ 7.7.3(Private Cloud)

⚠️ 注意:CDP 不支持 Nessie Catalog (截至 7.2),仅支持 Hive Catalog


🔧 二、启用 Iceberg 支持(CDP Private Cloud

步骤 1 :在 Cloudera Manager 中配置 Spark 启用 Iceberg

  • 登录 Cloudera Manager Web UI
  • 进入 Spark 3 → Configuration
  • 搜索 spark.sql.extensions
    • 添加值:org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions
  • 搜索 spark.sql.catalog.spark_catalog
    • 设置为:

org.apache.iceberg.spark.SparkSessionCatalog

  • 搜索 spark.sql.catalog.spark_catalog.type
    • 设置为:hive
  • (可选)设置默认仓库路径:
    • spark.sql.catalog.spark_catalog.warehouse = hdfs://nameservice1/warehouse/iceberg

💡 提示:上述配置将 spark_catalog 设为 Iceberg 的 Hive Catalog,使 CREATE TABLE 默认创建 Iceberg 表。

步骤 2 :重启 Spark 服务

  • 在 CM 中 重启 Spark 3 History Server 和 Gateway

🧪 三、使用 Iceberg (通过 Spark SQL

方式 1 :在 Spark Shell / Beeline / Hue 中操作

1. 启动 Spark SQL 客户端

Bash:

# 在 CDP 集群节点执行

spark3-sql --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions \

--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \

--conf spark.sql.catalog.spark_catalog.type=hive

2. 创建 Iceberg

Sql:

-- 创建数据库(如果不存在)

CREATE DATABASE IF NOT EXISTS iceberg_db;

-- 使用数据库

USE iceberg_db;

-- 创建 Iceberg 表(自动识别为 Iceberg 格式)

CREATE TABLE customer (

id BIGINT,

name STRING,

email STRING,

ts TIMESTAMP

) USING iceberg

PARTITIONED BY (days(ts));

✅ 关键:USING iceberg 显式指定格式(即使配置了默认 catalog 也建议写明)

3. 写入数据

Sql:

INSERT INTO customer VALUES

(1, 'Alice', 'alice@example.com', current_timestamp()),

(2, 'Bob', 'bob@example.com', current_timestamp());

4. 查询与 Time Travel

Sql:

-- 普通查询

SELECT * FROM customer;

-- 查看快照历史

SELECT * FROM customer.history;

-- 时间旅行查询(按快照 ID)

SELECT * FROM customer VERSION AS OF 123456789;

-- 或按时间戳

SELECT * FROM customer FOR TIMESTAMP AS OF '2025-12-17 10:00:00';

5. Schema Evolution (安全改表结构)

Sql:

-- 添加列

ALTER TABLE customer ADD COLUMN phone STRING;

-- 删除列(CDP 7.2+ 支持)

ALTER TABLE customer DROP COLUMN email;


📁 四、目录结构与元数据位置

Iceberg 表在 HDFS/S3 上生成标准目录结构:

/warehouse/iceberg/

└── iceberg_db.db/

└── customer/

├── metadata/

│ ├── snap-123456789-1-a1b2c3d4.metadata.json

│ ├── v1.metadata.json

│ └── ...

└── data/

└── dt=2025-12-17/

└── xxx.parquet

  • metadata/:存储快照、manifest、schema 变更历史
  • data/:实际数据文件(Parquet/ORC)

🔍 可通过 DESCRIBE FORMATTED customer; 查看表路径和格式。


⚙️ 五、高级功能(CDP 支持情况)

功能 CDP 支持 说明
Row-Level Delete ✅ 7.2+ DELETE FROM customer WHERE id = 1;
Merge Into (Upsert 需 Spark 3.2+,语法:MERGE INTO ... WHEN MATCHED THEN UPDATE ...
Time Travel 完整支持 VERSION AS OF / TIMESTAMP AS OF
Partition Evolution ALTER TABLE ... SET PARTITION SPEC (...)
Replication Manager 复制 ✅ 7.1.7 SP1+ 通过 RM 复制 Iceberg 表(需选 "Replicate using metadata files")
Trino/Presto 查询 ❌(Private Cloud) CDP Private Cloud 默认不集成 Trino;Public Cloud 可通过 DW 查询

🛠 六、常见问题排查

问题 解决方案
报错:Cannot find catalog spark_catalog 检查 Spark 配置是否包含 spark.sql.catalog.spark_catalog=...
CREATE TABLE 仍是 Hive 确认是否写了 USING iceberg,或检查 spark_catalog 是否被覆盖
权限拒绝(Permission denied 确保用户对 /warehouse/iceberg 有读写权限(HDFS ACL / S3 Policy)
Kerberos 认证失败 在 Spark 提交时添加 --keytab 和 --principal

📚 官方参考文档

  • Cloudera Docs: Using Iceberg Tables in CDP
  • CDP Public Cloud: Iceberg with Data Engineering

总结:CDP 中使用 Iceberg 的核心流程

1. 配置 Spark 启用 Iceberg 扩展 + Hive Catalog
2. 通过 Spark SQL 创建 USING iceberg
3. 使用标准 SQL 进行 INSERT/UPDATE/DELETE/TIME TRAVEL
4. 利用 Replication Manager 实现灾备同步(可选)

Iceberg 在 CDP 中已深度集成,是构建 湖仓一体(Lakehouse 架构的首选格式。

相关推荐
麦兜*3 分钟前
Spring Boot 整合 Apache Doris:实现海量数据实时OLAP分析实战
大数据·spring boot·后端·spring·apache
云启数智YQ3 分钟前
深入解析云桌面:定义、主流方案与行业实践
大数据
档案宝档案管理4 分钟前
权限分级+加密存储+操作追溯,筑牢会计档案安全防线
大数据·网络·人工智能·安全·档案·档案管理
武子康9 分钟前
大数据-207 如何应对多重共线性:使用线性回归中的最小二乘法时常见问题与解决方案
大数据·后端·机器学习
秋天的一阵风10 分钟前
🎥解决前端 “复现难”:rrweb 录制回放从入门到精通(下)
前端·开源·全栈
天远云服15 分钟前
拒绝性能瓶颈:使用Go协程高效清洗天远多头借贷行业风险数据
大数据·api
Justice Young16 分钟前
Hive第六章:Hive Optimization and Miscellaneous
数据仓库·hive·hadoop
天远数科18 分钟前
前端体验优化:如何用Node.js清洗天远多头借贷行业风险版的海量指标
大数据·api
天远数科19 分钟前
Node.js全栈实战:构建基于天远多头借贷行业风险版API的BFF风控层
大数据·node.js
Java 码农25 分钟前
RabbitMQ集群部署方案及配置指南04
分布式·rabbitmq