【Apache Paimon】-- flink job 并行度个数决定 bucket 个数

high20112025-04-15 11:25

数据写入的优化点

1、适当减小 sink.parallelism

2、增加 execution.checkpointing.max-concurrent-checkpoints: 3，允许至多3个检查点同时进行，主要用于减小部分并发检查点长尾的影响。

3、将小文件合并改为完全异步

复制代码

'num-sorted-run.stop-trigger' = '2147483647',
'sort-spill-threshold' = '10',
'changelog-producer.lookup-wait' = 'false'

4、更改文件格式

如果不需要对 Paimon表进行即席（OLAP）查询，只需进行批式或流式消费，可以选择配置以下表参数，将数据文件格式改为avro，并关闭采集统计数据，以进一步提高写入作业的效率。

复制代码

'file.format' = 'avro',
'metadata.stats-mode' = 'none'