HUDI-0.11.0 BUCKET index on Flink 特性试用

1. 背景

在 0.10.1 版本下,使用默认的 index(FLINK_STATE),在 upsert 模式下,几十亿级别的数据更新会消耗大量内存,并且检查点(checkpoint)时间过长。因此,切换到 0.11.0 的 BUCKET 索引。

当前环境:Flink 1.13.2 + Hudi 0.11.0(master 2022.04.11) + COW + HDFS

关键配置项:

  • index.type = BUCKET
  • hoodie.bucket.index.num.buckets = 256

关键词

  • Hudi
  • COW
  • Flink
  • BUCKET
  • FLINK_STATE

  • 描述 :Hudi 的 upsert 模式需要指定主键组,更新时按照主键进行更新。数据存储在 HDFS 文件上,因此需要维护主键与文件名的映射关系。Flink 的 state 用于存储这些映射关系。
  • 特点
    • 第一次加载 Hudi 表的历史数据时,需要设置 index.bootstrap.enabled = true 来加载历史数据到 state 中。
    • 支持跨分区更新。
  • 缺点
    • 占用大量内存。
    • 初始化加载历史数据较慢。

BUCKET

  • 描述 :基于文件的分桶机制。例如,设置主键为 id,桶个数为 256,则计算桶序号的方法为 (id.hashCode() & Integer.MAX_VALUE) % 256
  • 特点
    • 桶的个数一旦设置,不能更改。
    • 文件个数固定,单个文件大小会随着数据量增加而增大。
    • 优点:不占用 Flink 的 Managed Memory
    • 缺点:文件 IO 操作会增加 CPU 压力。
    • 不支持跨分区更新
  • 建议
    • 预估数据量,设置合理的桶数量,避免小文件或写放大问题。
    • 可以通过离线导数据观察 HDFS 文件大小来预估桶数量。

总结

  • FLINK_STATE:占用内存,初始化加载历史数据慢,支持跨分区。
  • BUCKET:占用磁盘,不支持跨分区,节省内存。

3. 相关配置

properties 复制代码
'connector' = 'hudi',
'path' = 'hdfs://path/',
'index.type' = 'BUCKET',                 -- bucket索引
'hoodie.parquet.compression.codec'= 'snappy',
'table.type' = 'COPY_ON_WRITE',
'write.operation' = 'upsert', 
'write.task.max.size' = '2048', 
'write.precombine' = 'true',
'write.precombine.field' = 'update_time',
'write.tasks' = '6',
'write.bucket_assign.tasks' = '6',
'hoodie.bucket.index.hash.field' = 'id',         -- 主键
'hoodie.bucket.index.num.buckets' = '256',  -- 桶个数
'hive_sync.enable'='true',
'hive_sync.table'='TABLE_NAME',
'hive_sync.db'='DB_NAME',
'hive_sync.mode' = 'hms',
'hive_sync.metastore.uris' = 'thrift://HOST:9083',
'hive_sync.skip_ro_suffix' = 'true',
'write.insert.cluster' = 'true',
'write.ignore.failed' = 'true',
'clean.async.enabled' = 'true',
'clean.retain_commits' = '3', 
'hoodie.cleaner.commits.retained' = '3',
'hoodie.keep.min.commits' = '4', 
'hoodie.keep.max.commits' = '8'
properties 复制代码
'connector' = 'hudi',
'path' = 'hdfs://PATH',
'hoodie.parquet.compression.codec'= 'snappy',
'index.type' = 'BUCKET',
'table.type' = 'COPY_ON_WRITE',
'write.operation' = 'bulk_insert', 
'write.tasks' = '2', 
'hoodie.bucket.index.num.buckets' = '256', 
'hoodie.bucket.index.hash.field' = 'id'

离线导入完成后

  • 观察 HDFS 文件,前八位为数字(例如 00000000-, 00000255-),即表示设置成功。
  • 然后可直接接入实时数据。

注意

  • 从 Hive 导数据到 Hudi 时,可以调整 Hive Source 的并行度:

    java 复制代码
    tableConfig.setInteger(HiveOptions.TABLE_EXEC_HIVE_INFER_SOURCE_PARALLELISM_MAX, source_parallelism_max)

4. 性能小结

实时情况

  • 基于当前数据量,单文件(80M)操作在 100ms 左右。例如:block read in memory in 171 ms. row count = 617384
  • 十几张表每次检查点(checkpoint)耗时约三四分钟,对于十几分钟的检查点间隔来说可以接受。

离线导数据情况

  • 对于亿级别数据的离线导入,资源消耗不大,十几分钟即可完成。

注意事项

  • 如果检查点设置过小,COW 表频繁操作 bucket 文件,会对集群 CPU 负载产生压力。
相关推荐
v***88567 小时前
SpringBoot集成Flink-CDC,实现对数据库数据的监听
数据库·spring boot·flink
wasp5201 天前
Apache Hudi 项目总体分析
数据挖掘·apache·hudi·数据湖仓
Hello.Reader2 天前
在 YARN 上跑 Flink CDC从 Session 到 Yarn Application 的完整实践
大数据·flink
二进制_博客2 天前
eventTime+watermarker+allowedLateness到底窗口关闭时间是什么?
flink·kafka
2501_941403762 天前
Python高性能图像识别与TensorFlow实战分享:深度学习模型优化与批量推理经验
flink
Bug快跑-13 天前
面向高并发场景的多语言异构系统架构演进与性能优化策略深度解析实践分享全过程方法论探索
flink
Hello.Reader4 天前
在 Flink Standalone 集群上运行 Flink CDC从下载到跑起一个 MySQL→Doris 同步任务
大数据·mysql·flink
A尘埃4 天前
Flink实时数据处理
大数据·flink·实时数据处理
expect7g5 天前
Paimon源码解读 -- PartialUpdateMerge
大数据·后端·flink
yumgpkpm5 天前
腾讯云TBDS与CDH迁移常见问题有哪些?建议由CDH迁移到CMP 7.13 平台(类Cloudera CDP,如华为鲲鹏 ARM 版)
hive·hadoop·zookeeper·flink·spark·kafka·hbase