【Apache Paimon】-- flink job 并行度个数决定 bucket 个数

数据写入的优化点

1、适当减小 sink.parallelism

2、增加 execution.checkpointing.max-concurrent-checkpoints: 3,允许至多3个检查点同时进行,主要用于减小部分并发检查点长尾的影响。

3、将小文件合并改为完全异步

复制代码
'num-sorted-run.stop-trigger' = '2147483647',
'sort-spill-threshold' = '10',
'changelog-producer.lookup-wait' = 'false'

4、更改文件格式

如果不需要对 Paimon表进行即席(OLAP)查询,只需进行批式或流式消费,可以选择配置以下表参数,将数据文件格式改为avro,并关闭采集统计数据,以进一步提高写入作业的效率。

复制代码
'file.format' = 'avro',
'metadata.stats-mode' = 'none'
相关推荐
杨不易呀8 小时前
Java面试:微服务与大数据场景下的技术挑战
java·大数据·微服务·面试·技术栈
feng9952012 小时前
从巴别塔到通天塔:Manus AI 如何重构多语言手写识别的智能版图
大数据·人工智能·机器学习
c无序13 小时前
深入探索 Apache Spark:从初识到集群运行原理
大数据·spark·apache
程序员阿龙18 小时前
基于机器学习算法预测二手车市场数据清洗与分析平台(源码+定制+讲解) 基于Python的数据挖掘与可视化 二手车数据处理与分析系统开发 (机器学习算法预测)
大数据·python·数据挖掘·spark·机器学习模型·二手车价格预测
caihuayuan41 天前
Linux环境部署iview-admin项目
java·大数据·sql·spring·课程设计
王哥儿聊AI1 天前
GenCLS++:通过联合优化SFT和RL,提升生成式大模型的分类效果
大数据·人工智能·深度学习·算法·机器学习·自然语言处理
KaiwuDB1 天前
KaiwuDB X 遨博智能 | 构建智能产线监测管理新系统
大数据·数据库·kaiwudb·分布式多模数据库
科技热点圈1 天前
大力探索“AI·Life爱生活”项目峰会暨战略投资签约仪式成功举办
大数据·人工智能·生活
苏小夕夕1 天前
大数据应用开发和项目实战-Seaborn
大数据·前端
AIGC方案1 天前
基于Hive + Spark离线数仓大数据实战项目(视频+课件+代码+资料+笔记)
大数据·hive·spark