流式数据湖Paimon探秘之旅 (十四) Tag与分支管理

第14章:Tag与分支管理

导言:数据的版本控制

就像Git管理代码一样,Paimon也提供了**Tag(标签)和Branch(分支)**来管理数据的版本。


第一部分:Tag(标签)

1.1 Tag是什么

Tag是一个Snapshot的固定引用,用于保存特定时刻的数据快照:

sql 复制代码
时间线:
Time 1: Snapshot 1 (100行)
Time 2: Snapshot 2 (110行) → 创建Tag: "v1.0"
Time 3: Snapshot 3 (115行)
Time 4: Snapshot 4 (120行) → 创建Tag: "v2.0"

Tag保留的是特定Snapshot的数据:
Tag "v1.0" 冻结了 Snapshot 2 的状态(110行)
Tag "v2.0" 冻结了 Snapshot 4 的状态(120行)

即使之后表被删除,Tag仍可恢复数据

1.2 创建和使用Tag

sql 复制代码
-- 创建Tag
ALTER TABLE orders CREATE TAG v1_2024_01_01;

-- 使用Tag查询
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF TAG 'v1_2024_01_01';

-- 列出所有Tag
SHOW TAGS;

-- 删除Tag
ALTER TABLE orders DROP TAG v1_2024_01_01;

1.3 自动Tag创建

yaml 复制代码
CREATE TABLE orders (...) WITH (
    'tag.creation.mode' = 'AUTO',
    'tag.auto-create.interval' = '1d'
);

配置说明:
├─ 每天自动创建一个Tag
├─ Tag名称如:tag-20240101, tag-20240102
└─ 便于恢复任意历史版本

第二部分:Branch(分支)

2.1 Branch是什么

Branch是一个独立的数据分支,类似Git分支:

less 复制代码
主分支 (main):
Snapshot 1 → Snapshot 2 → Snapshot 3 → Snapshot 4

创建分支:
Snapshot 2 分支出 feature 分支
        ↓
feature: Snapshot 2a → Snapshot 2b → Snapshot 2c

特点:
├─ main和feature独立发展
├─ 不同分支有不同的数据视图
└─ 可以合并(目前不支持,但支持切换)

2.2 创建和使用Branch

sql 复制代码
-- 从当前Snapshot创建分支
ALTER TABLE orders CREATE BRANCH feature_v1;

-- 切换分支
ALTER TABLE orders SWITCH BRANCH feature_v1;

-- 在feature_v1分支上操作
INSERT INTO orders VALUES (...);

-- 切换回main分支
ALTER TABLE orders SWITCH BRANCH main;

-- 删除分支
ALTER TABLE orders DROP BRANCH feature_v1;

第三部分:时间旅行查询

3.1 按Snapshot ID查询

sql 复制代码
-- 查询历史数据
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF SNAPSHOT_ID 10;

-- 最新数据
SELECT * FROM orders;  -- 隐含 SNAPSHOT_ID = 最大

-- 获取所有Snapshot ID
SELECT snapshot_id, commit_time FROM paimon_snapshots;

3.2 按时间戳查询

sql 复制代码
-- 查询特定时刻的数据
SELECT * FROM orders 
  FOR SYSTEM_TIME AS OF TIMESTAMP '2024-01-01 12:00:00';

-- 时间范围查询(需要Changelog)
SELECT * FROM orders 
  FOR SYSTEM_TIME BETWEEN 
    TIMESTAMP '2024-01-01 00:00:00' 
    AND TIMESTAMP '2024-01-01 23:59:59';

第四部分:生产级应用

4.1 数据误删恢复

vbnet 复制代码
场景:意外DELETE了大量数据

Step 1: 发现问题
时间:2024-01-15 10:30
现象:数据少了100万条

Step 2: 查找历史Snapshot
SELECT * FROM paimon_snapshots 
WHERE commit_time < '2024-01-15 10:00:00'
ORDER BY snapshot_id DESC
LIMIT 1;
结果:snapshot_id = 1000,commit_time = 2024-01-15 09:50:00

Step 3: 恢复数据
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF SNAPSHOT_ID 1000
UNION ALL
SELECT * FROM orders  -- 新增的数据
WHERE created_at > '2024-01-15 09:50:00';

Step 4: 验证数据完整性
SELECT COUNT(*) FROM ...

Step 5: 确认无误后提交

4.2 A/B测试

sql 复制代码
-- 创建测试分支
ALTER TABLE metrics CREATE BRANCH ab_test;

-- 在测试分支上运行新算法
ALTER TABLE metrics SWITCH BRANCH ab_test;
UPDATE metrics SET score = new_algorithm(feature);

-- 在主分支上继续运行旧算法
ALTER TABLE metrics SWITCH BRANCH main;

-- 对比两个分支的结果
SELECT 'main' as branch, COUNT(*), AVG(score)
FROM metrics FOR BRANCH 'main'
GROUP BY 1
UNION ALL
SELECT 'ab_test' as branch, COUNT(*), AVG(score)
FROM metrics FOR BRANCH 'ab_test'
GROUP BY 1;

-- A/B测试结果满意,切换到新算法
ALTER TABLE metrics SWITCH BRANCH ab_test;

总结

Tag vs Snapshot vs Branch

特性 Snapshot Tag Branch
生命周期 临时(可被清理) 永久 长期
用途 检查点 版本标记 平行开发
存储成本 0% <5% 100%

下一章:第15章讲解文件清理与维护

相关推荐
财迅通Ai18 小时前
6000万吨产能承压 卫星化学迎来战略窗口期
大数据·人工智能·物联网·卫星化学
武子康19 小时前
大数据-263 实时数仓-Canal 增量订阅与消费原理:MySQL Binlog 数据同步实践
大数据·hadoop·后端
LJ979511119 小时前
媒体发布新武器:Infoseek融媒体平台使用指南
大数据·人工智能
科技小花19 小时前
AI重塑数据治理:2026年核心方案评估与场景适配
大数据·人工智能·云原生·ai原生
方向研究19 小时前
存储芯片生产
大数据
代码青铜19 小时前
如何用 Zion 实现 AI 图片分析与电商文案自动生成流程
大数据·人工智能
gaoshengdainzi20 小时前
GB/T23448-2019卫生洁具软管专用检测设备全套解决方案
大数据·卫生洁具软管检测设备·软管试验机
茶靡花开041521 小时前
什么是DMS经销商管理系统?经销商管理系统哪个好?
大数据·人工智能
Gofarlic_OMS21 小时前
HyperWorks用户仿真行为分析与许可证资源分点配置
java·大数据·运维·服务器·人工智能
fire-flyer1 天前
ClickHouse系列(二):MergeTree 家族详解
大数据·数据库·clickhouse