HUDI-0.11.0 BUCKET index on Flink 特性试用

1. 背景

在 0.10.1 版本下,使用默认的 index(FLINK_STATE),在 upsert 模式下,几十亿级别的数据更新会消耗大量内存,并且检查点(checkpoint)时间过长。因此,切换到 0.11.0 的 BUCKET 索引。

当前环境:Flink 1.13.2 + Hudi 0.11.0(master 2022.04.11) + COW + HDFS

关键配置项:

  • index.type = BUCKET
  • hoodie.bucket.index.num.buckets = 256

关键词

  • Hudi
  • COW
  • Flink
  • BUCKET
  • FLINK_STATE

  • 描述 :Hudi 的 upsert 模式需要指定主键组,更新时按照主键进行更新。数据存储在 HDFS 文件上,因此需要维护主键与文件名的映射关系。Flink 的 state 用于存储这些映射关系。
  • 特点
    • 第一次加载 Hudi 表的历史数据时,需要设置 index.bootstrap.enabled = true 来加载历史数据到 state 中。
    • 支持跨分区更新。
  • 缺点
    • 占用大量内存。
    • 初始化加载历史数据较慢。

BUCKET

  • 描述 :基于文件的分桶机制。例如,设置主键为 id,桶个数为 256,则计算桶序号的方法为 (id.hashCode() & Integer.MAX_VALUE) % 256
  • 特点
    • 桶的个数一旦设置,不能更改。
    • 文件个数固定,单个文件大小会随着数据量增加而增大。
    • 优点:不占用 Flink 的 Managed Memory
    • 缺点:文件 IO 操作会增加 CPU 压力。
    • 不支持跨分区更新
  • 建议
    • 预估数据量,设置合理的桶数量,避免小文件或写放大问题。
    • 可以通过离线导数据观察 HDFS 文件大小来预估桶数量。

总结

  • FLINK_STATE:占用内存,初始化加载历史数据慢,支持跨分区。
  • BUCKET:占用磁盘,不支持跨分区,节省内存。

3. 相关配置

properties 复制代码
'connector' = 'hudi',
'path' = 'hdfs://path/',
'index.type' = 'BUCKET',                 -- bucket索引
'hoodie.parquet.compression.codec'= 'snappy',
'table.type' = 'COPY_ON_WRITE',
'write.operation' = 'upsert', 
'write.task.max.size' = '2048', 
'write.precombine' = 'true',
'write.precombine.field' = 'update_time',
'write.tasks' = '6',
'write.bucket_assign.tasks' = '6',
'hoodie.bucket.index.hash.field' = 'id',         -- 主键
'hoodie.bucket.index.num.buckets' = '256',  -- 桶个数
'hive_sync.enable'='true',
'hive_sync.table'='TABLE_NAME',
'hive_sync.db'='DB_NAME',
'hive_sync.mode' = 'hms',
'hive_sync.metastore.uris' = 'thrift://HOST:9083',
'hive_sync.skip_ro_suffix' = 'true',
'write.insert.cluster' = 'true',
'write.ignore.failed' = 'true',
'clean.async.enabled' = 'true',
'clean.retain_commits' = '3', 
'hoodie.cleaner.commits.retained' = '3',
'hoodie.keep.min.commits' = '4', 
'hoodie.keep.max.commits' = '8'
properties 复制代码
'connector' = 'hudi',
'path' = 'hdfs://PATH',
'hoodie.parquet.compression.codec'= 'snappy',
'index.type' = 'BUCKET',
'table.type' = 'COPY_ON_WRITE',
'write.operation' = 'bulk_insert', 
'write.tasks' = '2', 
'hoodie.bucket.index.num.buckets' = '256', 
'hoodie.bucket.index.hash.field' = 'id'

离线导入完成后

  • 观察 HDFS 文件,前八位为数字(例如 00000000-, 00000255-),即表示设置成功。
  • 然后可直接接入实时数据。

注意

  • 从 Hive 导数据到 Hudi 时,可以调整 Hive Source 的并行度:

    java 复制代码
    tableConfig.setInteger(HiveOptions.TABLE_EXEC_HIVE_INFER_SOURCE_PARALLELISM_MAX, source_parallelism_max)

4. 性能小结

实时情况

  • 基于当前数据量,单文件(80M)操作在 100ms 左右。例如:block read in memory in 171 ms. row count = 617384
  • 十几张表每次检查点(checkpoint)耗时约三四分钟,对于十几分钟的检查点间隔来说可以接受。

离线导数据情况

  • 对于亿级别数据的离线导入,资源消耗不大,十几分钟即可完成。

注意事项

  • 如果检查点设置过小,COW 表频繁操作 bucket 文件,会对集群 CPU 负载产生压力。
相关推荐
从头再来的码农11 小时前
大数据Flink相关面试题(一)
大数据·flink
MarkHD1 天前
第四天 从CAN总线到Spark/Flink实时处理
大数据·flink·spark
SparkSql1 天前
FlinkCDC采集MySQL8.4报错
大数据·flink
james的分享1 天前
Flink之Table API
flink·table api
涤生大数据2 天前
带你玩转 Flink TumblingWindow:从理论到代码的深度探索
flink·理论·代码·tumblingwindow
Apache Flink2 天前
网易游戏 Flink 云原生实践
游戏·云原生·flink
SunTecTec3 天前
SQL Server To Paimon Demo by Flink standalone cluster mode
java·大数据·flink
工作中的程序员4 天前
flink监控指标
flink
小马爱打代码4 天前
SpringBoot整合Kafka、Flink实现流式处理
spring boot·flink·kafka