流式数据湖Paimon探秘之旅 (十四) Tag与分支管理

第14章:Tag与分支管理

导言:数据的版本控制

就像Git管理代码一样,Paimon也提供了**Tag(标签)和Branch(分支)**来管理数据的版本。


第一部分:Tag(标签)

1.1 Tag是什么

Tag是一个Snapshot的固定引用,用于保存特定时刻的数据快照:

sql 复制代码
时间线:
Time 1: Snapshot 1 (100行)
Time 2: Snapshot 2 (110行) → 创建Tag: "v1.0"
Time 3: Snapshot 3 (115行)
Time 4: Snapshot 4 (120行) → 创建Tag: "v2.0"

Tag保留的是特定Snapshot的数据:
Tag "v1.0" 冻结了 Snapshot 2 的状态(110行)
Tag "v2.0" 冻结了 Snapshot 4 的状态(120行)

即使之后表被删除,Tag仍可恢复数据

1.2 创建和使用Tag

sql 复制代码
-- 创建Tag
ALTER TABLE orders CREATE TAG v1_2024_01_01;

-- 使用Tag查询
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF TAG 'v1_2024_01_01';

-- 列出所有Tag
SHOW TAGS;

-- 删除Tag
ALTER TABLE orders DROP TAG v1_2024_01_01;

1.3 自动Tag创建

yaml 复制代码
CREATE TABLE orders (...) WITH (
    'tag.creation.mode' = 'AUTO',
    'tag.auto-create.interval' = '1d'
);

配置说明:
├─ 每天自动创建一个Tag
├─ Tag名称如:tag-20240101, tag-20240102
└─ 便于恢复任意历史版本

第二部分:Branch(分支)

2.1 Branch是什么

Branch是一个独立的数据分支,类似Git分支:

less 复制代码
主分支 (main):
Snapshot 1 → Snapshot 2 → Snapshot 3 → Snapshot 4

创建分支:
Snapshot 2 分支出 feature 分支
        ↓
feature: Snapshot 2a → Snapshot 2b → Snapshot 2c

特点:
├─ main和feature独立发展
├─ 不同分支有不同的数据视图
└─ 可以合并(目前不支持,但支持切换)

2.2 创建和使用Branch

sql 复制代码
-- 从当前Snapshot创建分支
ALTER TABLE orders CREATE BRANCH feature_v1;

-- 切换分支
ALTER TABLE orders SWITCH BRANCH feature_v1;

-- 在feature_v1分支上操作
INSERT INTO orders VALUES (...);

-- 切换回main分支
ALTER TABLE orders SWITCH BRANCH main;

-- 删除分支
ALTER TABLE orders DROP BRANCH feature_v1;

第三部分:时间旅行查询

3.1 按Snapshot ID查询

sql 复制代码
-- 查询历史数据
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF SNAPSHOT_ID 10;

-- 最新数据
SELECT * FROM orders;  -- 隐含 SNAPSHOT_ID = 最大

-- 获取所有Snapshot ID
SELECT snapshot_id, commit_time FROM paimon_snapshots;

3.2 按时间戳查询

sql 复制代码
-- 查询特定时刻的数据
SELECT * FROM orders 
  FOR SYSTEM_TIME AS OF TIMESTAMP '2024-01-01 12:00:00';

-- 时间范围查询(需要Changelog)
SELECT * FROM orders 
  FOR SYSTEM_TIME BETWEEN 
    TIMESTAMP '2024-01-01 00:00:00' 
    AND TIMESTAMP '2024-01-01 23:59:59';

第四部分:生产级应用

4.1 数据误删恢复

vbnet 复制代码
场景:意外DELETE了大量数据

Step 1: 发现问题
时间:2024-01-15 10:30
现象:数据少了100万条

Step 2: 查找历史Snapshot
SELECT * FROM paimon_snapshots 
WHERE commit_time < '2024-01-15 10:00:00'
ORDER BY snapshot_id DESC
LIMIT 1;
结果:snapshot_id = 1000,commit_time = 2024-01-15 09:50:00

Step 3: 恢复数据
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF SNAPSHOT_ID 1000
UNION ALL
SELECT * FROM orders  -- 新增的数据
WHERE created_at > '2024-01-15 09:50:00';

Step 4: 验证数据完整性
SELECT COUNT(*) FROM ...

Step 5: 确认无误后提交

4.2 A/B测试

sql 复制代码
-- 创建测试分支
ALTER TABLE metrics CREATE BRANCH ab_test;

-- 在测试分支上运行新算法
ALTER TABLE metrics SWITCH BRANCH ab_test;
UPDATE metrics SET score = new_algorithm(feature);

-- 在主分支上继续运行旧算法
ALTER TABLE metrics SWITCH BRANCH main;

-- 对比两个分支的结果
SELECT 'main' as branch, COUNT(*), AVG(score)
FROM metrics FOR BRANCH 'main'
GROUP BY 1
UNION ALL
SELECT 'ab_test' as branch, COUNT(*), AVG(score)
FROM metrics FOR BRANCH 'ab_test'
GROUP BY 1;

-- A/B测试结果满意,切换到新算法
ALTER TABLE metrics SWITCH BRANCH ab_test;

总结

Tag vs Snapshot vs Branch

特性 Snapshot Tag Branch
生命周期 临时(可被清理) 永久 长期
用途 检查点 版本标记 平行开发
存储成本 0% <5% 100%

下一章:第15章讲解文件清理与维护

相关推荐
会飞的老朱3 小时前
医药集团数智化转型,智能综合管理平台激活集团管理新效能
大数据·人工智能·oa协同办公
AI_56788 小时前
AWS EC2新手入门:6步带你从零启动实例
大数据·数据库·人工智能·机器学习·aws
CRzkHbaXTmHw8 小时前
探索Flyback反激式开关电源的Matlab Simulink仿真之旅
大数据
七夜zippoe8 小时前
CANN Runtime任务描述序列化与持久化源码深度解码
大数据·运维·服务器·cann
盟接之桥9 小时前
盟接之桥说制造:引流品 × 利润品,全球电商平台高效产品组合策略(供讨论)
大数据·linux·服务器·网络·人工智能·制造
忆~遂愿9 小时前
ops-cv 算子库深度解析:面向视觉任务的硬件优化与数据布局(NCHW/NHWC)策略
java·大数据·linux·人工智能
忆~遂愿10 小时前
GE 引擎与算子版本控制:确保前向兼容性与图重写策略的稳定性
大数据·开发语言·docker
米羊12110 小时前
已有安全措施确认(上)
大数据·网络
人道领域11 小时前
AI抢人大战:谁在收割你的红包
大数据·人工智能·算法
qq_124987075311 小时前
基于Hadoop的信贷风险评估的数据可视化分析与预测系统的设计与实现(源码+论文+部署+安装)
大数据·人工智能·hadoop·分布式·信息可视化·毕业设计·计算机毕业设计