【Apache Paimon】-- flink job 并行度个数决定 bucket 个数

数据写入的优化点

1、适当减小 sink.parallelism

2、增加 execution.checkpointing.max-concurrent-checkpoints: 3,允许至多3个检查点同时进行,主要用于减小部分并发检查点长尾的影响。

3、将小文件合并改为完全异步

复制代码
'num-sorted-run.stop-trigger' = '2147483647',
'sort-spill-threshold' = '10',
'changelog-producer.lookup-wait' = 'false'

4、更改文件格式

如果不需要对 Paimon表进行即席(OLAP)查询,只需进行批式或流式消费,可以选择配置以下表参数,将数据文件格式改为avro,并关闭采集统计数据,以进一步提高写入作业的效率。

复制代码
'file.format' = 'avro',
'metadata.stats-mode' = 'none'
相关推荐
学术小八44 分钟前
第二届云计算与大数据国际学术会议(ICCBD 2025)
大数据·云计算
求职小程序华东同舟求职1 小时前
龙旗科技社招校招入职测评25年北森笔试测评题库答题攻略
大数据·人工智能·科技
二二孚日2 小时前
自用华为ICT云赛道Big Data第六章知识点-分布式搜索服务ElasticSearch
大数据·华为
武子康5 小时前
大数据-34 HBase 单节点配置 hbase-env hbase-site xml
大数据·后端·hbase
Edingbrugh.南空6 小时前
Hadoop MapReduce 入门
大数据·hadoop·mapreduce
huisheng_qaq6 小时前
【ElasticSearch实用篇-01】需求分析和数据制造
大数据·elasticsearch·制造
G.E.N.7 小时前
开源!RAG竞技场(2):标准RAG算法
大数据·人工智能·深度学习·神经网络·算法·llm·rag
勤奋的知更鸟7 小时前
Kettle + 大数据实战:从数据采集到分布式处理的完整流程指南
大数据·分布式
鸭鸭鸭进京赶烤14 小时前
大学专业科普 | 云计算、大数据
大数据·云计算
G皮T18 小时前
【Elasticsearch】自定义评分检索
大数据·elasticsearch·搜索引擎·查询·检索·自定义评分·_score