【Apache Paimon】-- flink job 并行度个数决定 bucket 个数

数据写入的优化点

1、适当减小 sink.parallelism

2、增加 execution.checkpointing.max-concurrent-checkpoints: 3,允许至多3个检查点同时进行,主要用于减小部分并发检查点长尾的影响。

3、将小文件合并改为完全异步

复制代码
'num-sorted-run.stop-trigger' = '2147483647',
'sort-spill-threshold' = '10',
'changelog-producer.lookup-wait' = 'false'

4、更改文件格式

如果不需要对 Paimon表进行即席(OLAP)查询,只需进行批式或流式消费,可以选择配置以下表参数,将数据文件格式改为avro,并关闭采集统计数据,以进一步提高写入作业的效率。

复制代码
'file.format' = 'avro',
'metadata.stats-mode' = 'none'
相关推荐
2601_9578822420 分钟前
企业矩阵系统建设实践:优化内容资产与数字获客流程
大数据·人工智能·矩阵系统·企业数字化运营
GIS数据转换器21 分钟前
智慧能源管理平台
java·大数据·运维·人工智能·无人机
AskHarries24 分钟前
OpenClaw Skill 从哪里找
大数据·elasticsearch·搜索引擎
小冯不疯29 分钟前
智能零售服务系统助力零售企业数字化升级
大数据
TechWayfarer40 分钟前
IP精准定位服务在快递网点规划中的应用:如何用客户位置数据辅助选址
大数据·网络·python·tcp/ip·交通物流
leduo668899o41 分钟前
知识付费系统深度测评:7款平台,内容加密+视频水印功能实测对比
大数据·网络·音视频
聚城云-GeecityCloud1 小时前
数字化破局|不分物业规模,皆可全新升级
大数据·人工智能
保卫大狮兄1 小时前
什么是物料编码?使用ERP之前做物料编码时需要注意什么?
大数据
captain_AIouo1 小时前
深耕海外市场,autoAGC攻破品牌跨境内容运营难题
大数据·人工智能·经验分享·产品运营·aigc·内容运营
志栋智能2 小时前
超自动化运维:如何降低人为错误?
大数据·运维·网络·人工智能·自动化