Apache Iceberg on AWS - 通过Firehose流式导入数据到Iceberg表

整体介绍

Amazon Data Firehose 支持从数据库获取 CDC 流并将其持续复制到 Amazon S3 上的 Apache Iceberg 表的功能。您可以通过指定源和目标来设置 Data Firehose 流。Data Firehose 会捕获并持续复制初始数据快照,然后将对选定数据库表所做的所有后续更改作为数据流进行复制。为了获取 CDC 流,Data Firehose 使用数据库复制日志,从而减少对数据库事务性能的影响。当数据库更新量增加或减少时,Data Firehose 会自动对数据进行分区,并持久保存记录,直到它们传送到目标位置。您无需预置容量或管理和微调集群。除了数据本身之外,Data Firehose 还可以在初始 Data Firehose 流创建过程中,使用与数据库表相同的架构自动创建 Apache Iceberg 表,并根据源架构的变化自动演进目标架构(例如添加新列)。

查看原始Aurora表数据

使用query editor查询表数据

创建CDC流

创建Firehose Stream

Schema Evolution

变更表结构,添加新的数据列

sql 复制代码
ALTER TABLE orders 
ADD COLUMN comment VARCHAR;

插入新的数据:

sql 复制代码
INSERT INTO orders (
   customer_id,
   total_amount,
   order_status,
   payment_method,
   shipping_address,
   comment
) VALUES (
   1001,                                       -- customer_id
   249.99,                                     -- total_amount
   'Processing',                               -- order_status
   'Credit Card',                              -- payment_method
   '123 Main Street, Apt 4B, New York, NY',    -- shipping_address
   'Please deliver after 5pm'                  -- comment
);

查询最新数据:

sql 复制代码
SELECT * 
FROM "pawmart"."public_orders" 
ORDER BY order_id DESC 
LIMIT 10;
相关推荐
乐迪信息6 分钟前
乐迪信息:AI防爆摄像机的船舶船体烟火智能预警系统
大数据·网络·人工智能·算法·无人机
辰风沐阳10 分钟前
git 忽略大小写(重命名文件)
大数据·git·elasticsearch
云端服务中心17 分钟前
数字化采购招投标服务落地指南——政府采购代理机构实操解析
大数据·人工智能
产品经理邹继强33 分钟前
VTC产品与创新篇②:产品决策仪表盘——告别优先级争吵,用三维算法驱动路线图
大数据·人工智能
金融小师妹33 分钟前
宏观预期再定价模型触发风险因子重构:黄金价格由反弹阶段转入高波动震荡区间
大数据·重构
珠海西格电力36 分钟前
零碳园区能源互联的核心协同模式解析
大数据·人工智能·物联网·架构·产品运营·能源
迎仔37 分钟前
03-Apache Tez 通俗指南:MapReduce 的“高速公路”升级包
大数据·apache·mapreduce
艺杯羹40 分钟前
Git文件状态管理:从基础到进阶的完整指南
大数据·git·elasticsearch·版本控制·git教程·代码管理·git基础
Prince-Peng1 小时前
技术架构系列 - 详解Elasticsearch
大数据·elasticsearch·架构
是店小二呀1 小时前
Git多人协作深度实践指南
大数据·git·elasticsearch