【Apache Paimon】-- flink job 并行度个数决定 bucket 个数

数据写入的优化点

1、适当减小 sink.parallelism

2、增加 execution.checkpointing.max-concurrent-checkpoints: 3,允许至多3个检查点同时进行,主要用于减小部分并发检查点长尾的影响。

3、将小文件合并改为完全异步

复制代码
'num-sorted-run.stop-trigger' = '2147483647',
'sort-spill-threshold' = '10',
'changelog-producer.lookup-wait' = 'false'

4、更改文件格式

如果不需要对 Paimon表进行即席(OLAP)查询,只需进行批式或流式消费,可以选择配置以下表参数,将数据文件格式改为avro,并关闭采集统计数据,以进一步提高写入作业的效率。

复制代码
'file.format' = 'avro',
'metadata.stats-mode' = 'none'
相关推荐
煤烦恼1 小时前
Spark-SQL核心编程(二)
大数据·sql·spark
精神内耗中的钙奶饼干4 小时前
Windows 系统上安装和使用 Apache Kafka记录
大数据·kafka
观无4 小时前
基于AOP+Log4Net+AutoFac日志框架
java·大数据·数据库
EasyDSS5 小时前
安防监控视频管理平台EasyCVR助力建筑工地施工4G/5G远程视频监管方案
大数据·网络·网络协议·音视频
F36_9_6 小时前
质量问题频发,如何提升源头把控
大数据·运维
lqg_zone6 小时前
Elasticvue-轻量级Elasticsearch可视化管理工具
大数据·elasticsearch·搜索引擎
youka1506 小时前
大数据学习栈记——MongoDB编程
大数据·学习·mongodb
星辰瑞云7 小时前
Spark-SQL核心编程2
大数据·分布式·spark
2401_824256867 小时前
Spark-SQL(二)
大数据·sql·spark
jinan8867 小时前
敏感数据触发后怎么保障安全?
大数据·网络·安全·web安全·金融