【Apache Paimon】-- flink job 并行度个数决定 bucket 个数

数据写入的优化点

1、适当减小 sink.parallelism

2、增加 execution.checkpointing.max-concurrent-checkpoints: 3,允许至多3个检查点同时进行,主要用于减小部分并发检查点长尾的影响。

3、将小文件合并改为完全异步

复制代码
'num-sorted-run.stop-trigger' = '2147483647',
'sort-spill-threshold' = '10',
'changelog-producer.lookup-wait' = 'false'

4、更改文件格式

如果不需要对 Paimon表进行即席(OLAP)查询,只需进行批式或流式消费,可以选择配置以下表参数,将数据文件格式改为avro,并关闭采集统计数据,以进一步提高写入作业的效率。

复制代码
'file.format' = 'avro',
'metadata.stats-mode' = 'none'
相关推荐
数据智能老司机25 分钟前
构建 Medallion 架构——构建 Silver 层
大数据·架构·数据分析
数据智能老司机39 分钟前
构建 Medallion 架构——构建 Bronze 层
大数据·架构·数据分析
数据智能老司机1 小时前
构建 Medallion 架构——数据架构的演进
大数据·架构·数据分析
智海观潮1 小时前
学好Spark必须要掌握的Scala技术点
大数据·spark·scala
数据智能老司机1 小时前
构建 Medallion 架构——深入解读Medallion架构
大数据·架构·数据分析
凯禾瑞华养老实训室2 小时前
智慧养老实训室建设指南:厂家的产品选型与应用建议
大数据·人工智能·ar·vr·虚拟仿真·智慧健康养老服务与管理
德昂信息dataondemand2 小时前
开好经营月会:如何把数据变成决策的利器?
大数据·人工智能·abi·经营月会
ajax_beijing3 小时前
hadoop的三副本数据冗余策略
大数据·hadoop·分布式
萤丰信息4 小时前
智慧园区:引领城市未来发展新趋势
大数据·科技·安全·重构·智慧城市·智慧园区
千桐科技5 小时前
qData 数据中台:全面支持 ARM 架构与信创国产化环境的兼容性说明
大数据·数据可视化