【Apache Paimon】-- flink job 并行度个数决定 bucket 个数

数据写入的优化点

1、适当减小 sink.parallelism

2、增加 execution.checkpointing.max-concurrent-checkpoints: 3,允许至多3个检查点同时进行,主要用于减小部分并发检查点长尾的影响。

3、将小文件合并改为完全异步

复制代码
'num-sorted-run.stop-trigger' = '2147483647',
'sort-spill-threshold' = '10',
'changelog-producer.lookup-wait' = 'false'

4、更改文件格式

如果不需要对 Paimon表进行即席(OLAP)查询,只需进行批式或流式消费,可以选择配置以下表参数,将数据文件格式改为avro,并关闭采集统计数据,以进一步提高写入作业的效率。

复制代码
'file.format' = 'avro',
'metadata.stats-mode' = 'none'
相关推荐
LplLpl113 小时前
AI 算法竞赛通关指南:基于深度学习的图像分类模型优化实战
大数据·人工智能·机器学习
庄小焱4 小时前
大数据治理域——数据资产管理示例
大数据·数据治理·大数据治理·数据治理实践
WordPress学习笔记7 小时前
专业建外贸网站公司推荐
大数据·前端·人工智能
Julian.zhou7 小时前
Anthropic破解长程任务难题:长期运行智能体的高效控制机制
大数据·人工智能
白日做梦Q9 小时前
Navicat for MySQL 详细使用指南:命令行操作与界面操作双视角全解析
大数据·mysql·adb·数据库开发
AI_567810 小时前
AI知识库如何重塑服务体验
大数据·人工智能
你好~每一天11 小时前
从传统行业到AI入门:我的CAIE Level I学习体验与思考
大数据·数据结构·人工智能·学习·jupyter·idea
G皮T11 小时前
【Elasticsearch】索引别名 aliases
大数据·elasticsearch·搜索引擎·es·索引·索引别名·aliases
wyiyiyi11 小时前
【数据结构+算法】非递归遍历二叉树的理解
大数据·数据结构·笔记·算法·leetcode·数据分析
爱跑步的程序员~11 小时前
Elasticsearch倒排索引
java·大数据·elasticsearch·搜索引擎·全文检索