【Apache Paimon】-- flink job 并行度个数决定 bucket 个数

数据写入的优化点

1、适当减小 sink.parallelism

2、增加 execution.checkpointing.max-concurrent-checkpoints: 3,允许至多3个检查点同时进行,主要用于减小部分并发检查点长尾的影响。

3、将小文件合并改为完全异步

复制代码
'num-sorted-run.stop-trigger' = '2147483647',
'sort-spill-threshold' = '10',
'changelog-producer.lookup-wait' = 'false'

4、更改文件格式

如果不需要对 Paimon表进行即席(OLAP)查询,只需进行批式或流式消费,可以选择配置以下表参数,将数据文件格式改为avro,并关闭采集统计数据,以进一步提高写入作业的效率。

复制代码
'file.format' = 'avro',
'metadata.stats-mode' = 'none'
相关推荐
SelectDB22 分钟前
天翼云与飞轮科技达成战略合作,共筑云数融合新生态
大数据·数据库·数据分析
Sunhen_Qiletian1 小时前
机器学习实战:逻辑回归深度解析与欺诈检测评估指标详解(二)
大数据
Flink_China2 小时前
Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理
大数据·flink
慌ZHANG4 小时前
云原生安全挑战与治理策略:从架构思维到落地实践
大数据·云原生·架构
程序员小羊!5 小时前
Hadoop HDFS 3.3.4 讲解~
大数据·hadoop·hdfs
张太行_5 小时前
人月神话:软件工程的永恒智慧
大数据·软件工程
程序员小羊!6 小时前
Hadoop MapReduce 3.3.4 讲解~
大数据·hadoop·mapreduce
Leinwin7 小时前
GitHub Spark公共预览版上线
大数据·spark·github
跨境猫小妹8 小时前
亚马逊卖家反馈机制变革:纯星级评级时代的合规挑战与运营重构
大数据·人工智能·重构·跨境电商·亚马逊
小白学大数据8 小时前
Java爬虫性能优化:多线程抓取JSP动态数据实践
java·大数据·爬虫·性能优化