Apache Iceberg on AWS - 通过Firehose流式导入数据到Iceberg表

整体介绍

Amazon Data Firehose 支持从数据库获取 CDC 流并将其持续复制到 Amazon S3 上的 Apache Iceberg 表的功能。您可以通过指定源和目标来设置 Data Firehose 流。Data Firehose 会捕获并持续复制初始数据快照,然后将对选定数据库表所做的所有后续更改作为数据流进行复制。为了获取 CDC 流,Data Firehose 使用数据库复制日志,从而减少对数据库事务性能的影响。当数据库更新量增加或减少时,Data Firehose 会自动对数据进行分区,并持久保存记录,直到它们传送到目标位置。您无需预置容量或管理和微调集群。除了数据本身之外,Data Firehose 还可以在初始 Data Firehose 流创建过程中,使用与数据库表相同的架构自动创建 Apache Iceberg 表,并根据源架构的变化自动演进目标架构(例如添加新列)。

查看原始Aurora表数据

使用query editor查询表数据

创建CDC流

创建Firehose Stream

Schema Evolution

变更表结构,添加新的数据列

sql 复制代码
ALTER TABLE orders 
ADD COLUMN comment VARCHAR;

插入新的数据:

sql 复制代码
INSERT INTO orders (
   customer_id,
   total_amount,
   order_status,
   payment_method,
   shipping_address,
   comment
) VALUES (
   1001,                                       -- customer_id
   249.99,                                     -- total_amount
   'Processing',                               -- order_status
   'Credit Card',                              -- payment_method
   '123 Main Street, Apt 4B, New York, NY',    -- shipping_address
   'Please deliver after 5pm'                  -- comment
);

查询最新数据:

sql 复制代码
SELECT * 
FROM "pawmart"."public_orders" 
ORDER BY order_id DESC 
LIMIT 10;
相关推荐
samFuB6 小时前
【实证分析】省级农产品出口技术复杂度数据-含代码(2004-2024年)
大数据
samFuB6 小时前
【数据集】中国31个省农村用电量-含dta及xlsx(1978-2024年)
大数据
成长之路5147 小时前
【数据集】上市公司企业组织惯性数据(2012-2024年)
大数据
Tigerbot9 小时前
虎博科技CEO卢鑫:GEO方法论提出者,AI Marketing 与 AI GEO专家
大数据·人工智能·科技
alxraves10 小时前
医疗器械质量管理体系信息系统的详细设计
大数据·安全·健康医疗·制造
xcbrand10 小时前
快消品品牌策划公司哪家好
大数据·人工智能·python
T062051410 小时前
【实证分析】上市公司企业交易成本数据集-含代码(2000-2024年)
大数据
智慧景区与市集主理人11 小时前
露营设备租赁低效?巨有科技计时租赁系统激活五一增收新动能
大数据·人工智能
@土豆11 小时前
Elasticsearch 9.0.1 集群部署(Docker Compose + k8s 部署方式)
大数据·elasticsearch·docker
醉颜凉11 小时前
Elasticsearch 生产级核心原理:Shard Allocation Awareness 工作机制与实战配置详解
大数据·elasticsearch·搜索引擎