流式数据湖Paimon探秘之旅 (十四) Tag与分支管理

第14章:Tag与分支管理

导言:数据的版本控制

就像Git管理代码一样,Paimon也提供了**Tag(标签)和Branch(分支)**来管理数据的版本。


第一部分:Tag(标签)

1.1 Tag是什么

Tag是一个Snapshot的固定引用,用于保存特定时刻的数据快照:

sql 复制代码
时间线:
Time 1: Snapshot 1 (100行)
Time 2: Snapshot 2 (110行) → 创建Tag: "v1.0"
Time 3: Snapshot 3 (115行)
Time 4: Snapshot 4 (120行) → 创建Tag: "v2.0"

Tag保留的是特定Snapshot的数据:
Tag "v1.0" 冻结了 Snapshot 2 的状态(110行)
Tag "v2.0" 冻结了 Snapshot 4 的状态(120行)

即使之后表被删除,Tag仍可恢复数据

1.2 创建和使用Tag

sql 复制代码
-- 创建Tag
ALTER TABLE orders CREATE TAG v1_2024_01_01;

-- 使用Tag查询
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF TAG 'v1_2024_01_01';

-- 列出所有Tag
SHOW TAGS;

-- 删除Tag
ALTER TABLE orders DROP TAG v1_2024_01_01;

1.3 自动Tag创建

yaml 复制代码
CREATE TABLE orders (...) WITH (
    'tag.creation.mode' = 'AUTO',
    'tag.auto-create.interval' = '1d'
);

配置说明:
├─ 每天自动创建一个Tag
├─ Tag名称如:tag-20240101, tag-20240102
└─ 便于恢复任意历史版本

第二部分:Branch(分支)

2.1 Branch是什么

Branch是一个独立的数据分支,类似Git分支:

less 复制代码
主分支 (main):
Snapshot 1 → Snapshot 2 → Snapshot 3 → Snapshot 4

创建分支:
Snapshot 2 分支出 feature 分支
        ↓
feature: Snapshot 2a → Snapshot 2b → Snapshot 2c

特点:
├─ main和feature独立发展
├─ 不同分支有不同的数据视图
└─ 可以合并(目前不支持,但支持切换)

2.2 创建和使用Branch

sql 复制代码
-- 从当前Snapshot创建分支
ALTER TABLE orders CREATE BRANCH feature_v1;

-- 切换分支
ALTER TABLE orders SWITCH BRANCH feature_v1;

-- 在feature_v1分支上操作
INSERT INTO orders VALUES (...);

-- 切换回main分支
ALTER TABLE orders SWITCH BRANCH main;

-- 删除分支
ALTER TABLE orders DROP BRANCH feature_v1;

第三部分:时间旅行查询

3.1 按Snapshot ID查询

sql 复制代码
-- 查询历史数据
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF SNAPSHOT_ID 10;

-- 最新数据
SELECT * FROM orders;  -- 隐含 SNAPSHOT_ID = 最大

-- 获取所有Snapshot ID
SELECT snapshot_id, commit_time FROM paimon_snapshots;

3.2 按时间戳查询

sql 复制代码
-- 查询特定时刻的数据
SELECT * FROM orders 
  FOR SYSTEM_TIME AS OF TIMESTAMP '2024-01-01 12:00:00';

-- 时间范围查询(需要Changelog)
SELECT * FROM orders 
  FOR SYSTEM_TIME BETWEEN 
    TIMESTAMP '2024-01-01 00:00:00' 
    AND TIMESTAMP '2024-01-01 23:59:59';

第四部分:生产级应用

4.1 数据误删恢复

vbnet 复制代码
场景:意外DELETE了大量数据

Step 1: 发现问题
时间:2024-01-15 10:30
现象:数据少了100万条

Step 2: 查找历史Snapshot
SELECT * FROM paimon_snapshots 
WHERE commit_time < '2024-01-15 10:00:00'
ORDER BY snapshot_id DESC
LIMIT 1;
结果:snapshot_id = 1000,commit_time = 2024-01-15 09:50:00

Step 3: 恢复数据
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF SNAPSHOT_ID 1000
UNION ALL
SELECT * FROM orders  -- 新增的数据
WHERE created_at > '2024-01-15 09:50:00';

Step 4: 验证数据完整性
SELECT COUNT(*) FROM ...

Step 5: 确认无误后提交

4.2 A/B测试

sql 复制代码
-- 创建测试分支
ALTER TABLE metrics CREATE BRANCH ab_test;

-- 在测试分支上运行新算法
ALTER TABLE metrics SWITCH BRANCH ab_test;
UPDATE metrics SET score = new_algorithm(feature);

-- 在主分支上继续运行旧算法
ALTER TABLE metrics SWITCH BRANCH main;

-- 对比两个分支的结果
SELECT 'main' as branch, COUNT(*), AVG(score)
FROM metrics FOR BRANCH 'main'
GROUP BY 1
UNION ALL
SELECT 'ab_test' as branch, COUNT(*), AVG(score)
FROM metrics FOR BRANCH 'ab_test'
GROUP BY 1;

-- A/B测试结果满意,切换到新算法
ALTER TABLE metrics SWITCH BRANCH ab_test;

总结

Tag vs Snapshot vs Branch

特性 Snapshot Tag Branch
生命周期 临时(可被清理) 永久 长期
用途 检查点 版本标记 平行开发
存储成本 0% <5% 100%

下一章:第15章讲解文件清理与维护

相关推荐
语落心生30 分钟前
流式数据湖Paimon探秘之旅 (十二) 索引与加速
大数据
语落心生33 分钟前
流式数据湖Paimon探秘之旅 (十一) Changelog变更日志
大数据
语落心生33 分钟前
流式数据湖Paimon探秘之旅 (十六) Flink集成深度解析
大数据
数据与后端架构提升之路36 分钟前
自动驾驶仿真数据闭环:如何利用大数据构建“上帝视角”的虚拟矩阵?(硬核指南)
大数据·矩阵·自动驾驶
TDengine (老段)36 分钟前
TDengine 时区函数 TIMEZONE 用户手册
java·大数据·数据库·物联网·时序数据库·tdengine·涛思数据
语落心生37 分钟前
流式数据湖Paimon探秘之旅 (五) 写入流程全解析
大数据
语落心生38 分钟前
流式数据湖Paimon探秘之旅 (九) Compaction压缩机制
大数据
语落心生39 分钟前
流式数据湖Paimon探秘之旅 (十) Merge Engine合并引擎
大数据
en-route39 分钟前
深入理解数据仓库设计:事实表与事实宽表的区别与应用
大数据·数据仓库·spark