paimon避坑指南

基于paimon-0.8的实践

1.下游实时消费异常

shell 复制代码
2025-08-05 11:24:49.176 ERROR org.apache.paimon.flink.source.ContinuousFileSplitEnumerator  - Failed to enumerate files
org.apache.paimon.table.source.OutOfRangeException: The snapshot with id 1690 has expired. You can: 1. increase the snapshot or changelog expiration time. 2. use consumer-id to ensure that unconsumed snapshots will not be expired.

🔍 异常核心原因

快照过期:Paimon 表的快照(Snapshot)ID 1691 已被清理,导致 Flink 作业无法读取该快照。

常见原因:

a.快照保留时间(snapshot.expire-time)或变更日志(Changelog)保留时间不足。

b.Flink 作业消费速度慢,未能在快照过期前完成读取。

c.未启用消费者组(Consumer ID):若未指定 consumer-id,Paimon 可能无法跟踪未消费的快照,导致快照被提前清理。

设置合适的snapshot保留策略

shell 复制代码
ALTER TABLE a SET ('snapshot.time-retained' = '24h');
ALTER TABLE a SET ('snapshot.expire-time' = '86400000');
--需重启任务才会生效
ALTER TABLE a SET ('snapshot.num-retained.max' = '600','snapshot.num-retained.min' = '300');

2.只要表使用了 merge-engine = partial-update 就必须保持 write-only = false,原因如下:

a. Partial-update 需要在写入端持续做 merge/回填 (Lookup Join),

这依赖写入任务内部的 compaction 线程 来把部分列更新合并成完整行。

一旦 write-only = true,compaction 线程被关闭,merge 动作无法完成 ,会导致: • 读到大量"半成品"行;

• 查询结果不完整或错误;

• 表状态最终不一致。

b. 官方文档与源码校验

• 在 PartialUpdateMergeFunction 初始化时会检查 write-only 标志;

• 如果检测到 write-only = true,会抛出IllegalArgumentException

3.当使用'merge-engine' = 'partial-update',不要设置'sequence.field',否则迟到的数据会被丢弃,如果想要获取完整的chagelog使用'changelog-producer' = 'lookup',或者'changelog-producer' = 'full-compaction'

4.insert overwrite table 异常

bash 复制代码
org.apache.kyuubi.KyuubiSQLException: org.apache.kyuubi.KyuubiSQLException: Error operating ExecuteStatement: org.apache.spark.sql.AnalysisException: Table a does not support dynamic overwrite in batch mode.; OverwritePartitionsDynamic RelationV2

显式启用 Paimon 扩展并开启动态覆盖模式

--conf spark.sql.extensions=org.apache.paimon.spark.extensions.PaimonSparkSessionExtensions

5.使用spark sql写入异常信息

bash 复制代码
org.apache.kyuubi.KyuubiSQLException: org.apache.kyuubi.KyuubiSQLException: Error operating ExecuteStatement: org.apache.spark.sql.AnalysisException: LEGACY store assignment policy is disallowed in Spark data source V2. Please set the configuration spark.sql.storeAssignmentPolicy to other values

Spark 3.x 的 DataSource V2 不再支持 LEGACY 类型的字段类型自动转换策略,你必须把配置 spark.sql.storeAssignmentPolicy 改成 ANSI STRICT

SET spark.sql.storeAssignmentPolicy=STRICT;

6.因compact导致ck总是超时

'changelog-producer.lookup-wait' = 'false'--使用异步look up

相关推荐
colorknight3 天前
数据编织-异构数据存储的自动化治理
数据仓库·人工智能·数据治理·数据湖·数据科学·数据编织·自动化治理
鹿衔`8 天前
StarRocks 2.5.22 混合部署实战文档(CDH环境)
starrocks·apache·paimon
鹿衔`8 天前
StarRocks 4.0.2 (CDH 环境)与Paimon数据湖集成混合部署文档
linux·硬件架构·paimon·starroks
鹿衔`8 天前
Apache Doris 2.1.10 集群部署与 Paimon 数据湖集成实战文档
apache·doris·paimon
鹿衔`8 天前
Apache Doris 4.0.1 集群部署与 Paimon 数据湖集成实战文档
flink·apache·doris·paimon
想ai抽12 天前
StarRocks PB 级日增量数据模型优化:注意点、调优策略与风险防控
starrocks·doris·数据湖
zhangkaixuan45616 天前
Flink Checkpoint 全生命周期深度解析
大数据·hadoop·flink·apache·paimon
菜鸟冲锋号18 天前
Paimon 流 - 流增量关联(CDC 模式)具体实现方案
大数据·flink·数据湖·paimon·多流外键关联
wasp52019 天前
Hudi 元数据管理分析
java·大数据·linux·hudi·数据湖·数据湖仓