流式数据湖Paimon探秘之旅 (十四) Tag与分支管理

第14章:Tag与分支管理

导言:数据的版本控制

就像Git管理代码一样,Paimon也提供了**Tag(标签)和Branch(分支)**来管理数据的版本。


第一部分:Tag(标签)

1.1 Tag是什么

Tag是一个Snapshot的固定引用,用于保存特定时刻的数据快照:

sql 复制代码
时间线:
Time 1: Snapshot 1 (100行)
Time 2: Snapshot 2 (110行) → 创建Tag: "v1.0"
Time 3: Snapshot 3 (115行)
Time 4: Snapshot 4 (120行) → 创建Tag: "v2.0"

Tag保留的是特定Snapshot的数据:
Tag "v1.0" 冻结了 Snapshot 2 的状态(110行)
Tag "v2.0" 冻结了 Snapshot 4 的状态(120行)

即使之后表被删除,Tag仍可恢复数据

1.2 创建和使用Tag

sql 复制代码
-- 创建Tag
ALTER TABLE orders CREATE TAG v1_2024_01_01;

-- 使用Tag查询
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF TAG 'v1_2024_01_01';

-- 列出所有Tag
SHOW TAGS;

-- 删除Tag
ALTER TABLE orders DROP TAG v1_2024_01_01;

1.3 自动Tag创建

yaml 复制代码
CREATE TABLE orders (...) WITH (
    'tag.creation.mode' = 'AUTO',
    'tag.auto-create.interval' = '1d'
);

配置说明:
├─ 每天自动创建一个Tag
├─ Tag名称如:tag-20240101, tag-20240102
└─ 便于恢复任意历史版本

第二部分:Branch(分支)

2.1 Branch是什么

Branch是一个独立的数据分支,类似Git分支:

less 复制代码
主分支 (main):
Snapshot 1 → Snapshot 2 → Snapshot 3 → Snapshot 4

创建分支:
Snapshot 2 分支出 feature 分支
        ↓
feature: Snapshot 2a → Snapshot 2b → Snapshot 2c

特点:
├─ main和feature独立发展
├─ 不同分支有不同的数据视图
└─ 可以合并(目前不支持,但支持切换)

2.2 创建和使用Branch

sql 复制代码
-- 从当前Snapshot创建分支
ALTER TABLE orders CREATE BRANCH feature_v1;

-- 切换分支
ALTER TABLE orders SWITCH BRANCH feature_v1;

-- 在feature_v1分支上操作
INSERT INTO orders VALUES (...);

-- 切换回main分支
ALTER TABLE orders SWITCH BRANCH main;

-- 删除分支
ALTER TABLE orders DROP BRANCH feature_v1;

第三部分:时间旅行查询

3.1 按Snapshot ID查询

sql 复制代码
-- 查询历史数据
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF SNAPSHOT_ID 10;

-- 最新数据
SELECT * FROM orders;  -- 隐含 SNAPSHOT_ID = 最大

-- 获取所有Snapshot ID
SELECT snapshot_id, commit_time FROM paimon_snapshots;

3.2 按时间戳查询

sql 复制代码
-- 查询特定时刻的数据
SELECT * FROM orders 
  FOR SYSTEM_TIME AS OF TIMESTAMP '2024-01-01 12:00:00';

-- 时间范围查询(需要Changelog)
SELECT * FROM orders 
  FOR SYSTEM_TIME BETWEEN 
    TIMESTAMP '2024-01-01 00:00:00' 
    AND TIMESTAMP '2024-01-01 23:59:59';

第四部分:生产级应用

4.1 数据误删恢复

vbnet 复制代码
场景:意外DELETE了大量数据

Step 1: 发现问题
时间:2024-01-15 10:30
现象:数据少了100万条

Step 2: 查找历史Snapshot
SELECT * FROM paimon_snapshots 
WHERE commit_time < '2024-01-15 10:00:00'
ORDER BY snapshot_id DESC
LIMIT 1;
结果:snapshot_id = 1000,commit_time = 2024-01-15 09:50:00

Step 3: 恢复数据
SELECT * FROM orders 
  FOR SYSTEM_VERSION AS OF SNAPSHOT_ID 1000
UNION ALL
SELECT * FROM orders  -- 新增的数据
WHERE created_at > '2024-01-15 09:50:00';

Step 4: 验证数据完整性
SELECT COUNT(*) FROM ...

Step 5: 确认无误后提交

4.2 A/B测试

sql 复制代码
-- 创建测试分支
ALTER TABLE metrics CREATE BRANCH ab_test;

-- 在测试分支上运行新算法
ALTER TABLE metrics SWITCH BRANCH ab_test;
UPDATE metrics SET score = new_algorithm(feature);

-- 在主分支上继续运行旧算法
ALTER TABLE metrics SWITCH BRANCH main;

-- 对比两个分支的结果
SELECT 'main' as branch, COUNT(*), AVG(score)
FROM metrics FOR BRANCH 'main'
GROUP BY 1
UNION ALL
SELECT 'ab_test' as branch, COUNT(*), AVG(score)
FROM metrics FOR BRANCH 'ab_test'
GROUP BY 1;

-- A/B测试结果满意,切换到新算法
ALTER TABLE metrics SWITCH BRANCH ab_test;

总结

Tag vs Snapshot vs Branch

特性 Snapshot Tag Branch
生命周期 临时(可被清理) 永久 长期
用途 检查点 版本标记 平行开发
存储成本 0% <5% 100%

下一章:第15章讲解文件清理与维护

相关推荐
故乡de云17 小时前
Google Cloud与AWS大数据AI服务对比:2026年企业选型指南
大数据·人工智能·aws
米粒118 小时前
操作系统原理--处理机调度
大数据
数说星榆18118 小时前
在线高清泳道图制作工具 无水印 PC
大数据·人工智能·架构·机器人·流程图
老胡全房源系统18 小时前
2026年1月适合房产经纪人用的房产中介管理系统
大数据·人工智能·房产经纪人培训
杭州龙立智能科技19 小时前
专业的厂内运输车智能化厂家
大数据·人工智能·python
securitypaper19 小时前
2026年最新发布的 安全生产 行业标准 列表 下载
大数据·安全
Light6019 小时前
从“报告”到“能力”——构建智能化、可审计的数据治理闭环——领码 SPARK 数据质量平台白皮书
大数据·分布式·spark
TDengine (老段)19 小时前
嘉环科技携手 TDengine,助力某水务公司构建一体化融合平台
大数据·数据库·科技·物联网·时序数据库·tdengine·涛思数据
程序猿阿伟19 小时前
《Python生态事件溯源与CQRS轻量化落地指南》
大数据·python·微服务
dajun18112345619 小时前
跨部门工作流泳道图在线绘制工具 PC
大数据·数据库·人工智能·信息可视化·架构·流程图