Apache Paimon Append Scalable表解析

1.Append Scalable Table
a) 定义

在表属性中配置 'bucket' = '-1',将进入 "unaware-bucket mode",在此模式下不再有桶的概念,也不保证流任务读取数据的顺序,可以将此表视为批量离线表,所有记录都将进入一个目录(为了兼容性,把它们放在bucket-0中),不再保持有序同时不再按bucket shuffle将加快数据的插入速度。

使用这个模式,可以替换Hive table为lake table。

b) Compaction

在 "unaware-bucket mode" 下,不在writer中进行compaction,而是使用Compact Coordinator去浏览小文件提交compaction任务到Compact Worker中。

在流模式下,如果在flink中运行insert sql,拓扑将如下:

Compact Worker将尽最大努力压缩小文件,但当一个分区中只有一个小文件,并且没有向分区添加新文件时,Compact Coordinator会将其从内存中删除,以减少内存使用量。

重新启动作业后,它将扫描小文件并再次将其添加到内存中,如果将write-only设置为true,Compact CoordinatorCompact Worker将在拓扑中删除。

自动压缩仅在Flink引擎流模式下支持,可以通过paimon中的flink操作在flink中启动压缩作业,并通过设置write-only禁用其它压缩。

c) Sort Compact

如果每个分区的数据是无序的,那么查询速度将变慢,然而聚合又将会影响插入性能,因此对于只inserting的job,可以设置write-only,当分区的数据插入完毕后,再触发一次分区的 Sort Compact

d) Streaming Source

在 "unaware-bucket mode" 下,append table支持流读写,但不再保证顺序,不能把它看成一个queue,而是一个lake。

每个commit都会生成一个新的record,通过读取新的record来读取增量数据,但读取它们可能是无序的。

e)Streaming Multiple Partitions Write

Paimon-sink处理的写入任务数量是:写入数据的分区数量*每个分区的桶数量。

需要控制每个paimon-sink任务的write tasks数量,如果每个sink任务处理太多的write tasks,不仅会导致太多小文件问题,还可能导致内存不足。

而且写入失败会引入孤儿文件,增加了维护paimon的成本。

对于启用auto-merge的flink-jobs,建议遵循以下公式来调整paimon-sink的并行度:

复制代码
(N*B)/P < 100

N(写入数据的分区数)
B(桶数量)
P(paimon-sink任务的并行度)
100(这是一个经验推导的阈值,对于禁用auto-merge的flink-jobs,此值可以降低。)

write-buffer-spillable设置为true,writer可以将record溢写到磁盘,可以减少小文件数量;要使用此选项,需要为flink集群设置一定大小的本地磁盘。

为append-table设置write-buffer-for-append选项,将此参数设置为true,writer将使用Segment Pool缓存records,以避免OOM。

复制代码
CREATE TABLE MyTable (
    product_id BIGINT,
    price DOUBLE,
    sales BIGINT
) WITH (
    'bucket' = '-1'
);
相关推荐
逸模2 小时前
告别熬夜手工整理台账,逸模智能归集实现项目数据自动化存档
大数据·运维·人工智能·笔记·其他·信息可视化·自动化
audyxiao0014 小时前
ICLR 2026论文分享 | WorldGym:用世界模型打造机器人策略评估新范式
大数据·人工智能·大模型·智能体·世界模型
Rubin智造社4 小时前
Anthropic安全白皮书2|三级成熟度模型:你的AI智能体该配哪级安全?
大数据·安全·沙箱隔离·零信任成熟度模型·三级安全框架·jit权限·不可变审计
ACP广源盛139246256735 小时前
GSV2221 显示转换芯片@ACP#赋能 RTX Spark 端侧 AI 设备,构建多屏全模态视觉交互新生态
大数据·人工智能·嵌入式硬件·gpt·spark·电脑·音视频
字节跳动开源5 小时前
你的 Agent 每次都“失忆”?这个工具彻底治好了我的前端开发焦虑
大数据·开源·agent
APItesterCris6 小时前
实战教程:借助 Open Claw + 淘宝商品 API,低成本实现电商自动化监控与智能选品
大数据·运维·自动化
团象科技6 小时前
从一线运营场景观察 海外云 独立站的跨境效能释放实践路径
大数据·人工智能
宸津-代码粉碎机7 小时前
Spring AI企业级实战|从RAG优化到Agent多工具调度
java·大数据·人工智能·后端·python·spring
INFINI Labs7 小时前
Elasticsearch 6/7/8 到 Easysearch 2.x 迁移指南
大数据·elasticsearch·mybatis·向量·snapshot
小柒儿3367 小时前
汪进进:深水区里以质立身,做长期价值的践行者
大数据·人工智能