Apache Iceberg on AWS - 通过Firehose流式导入数据到Iceberg表

整体介绍

Amazon Data Firehose 支持从数据库获取 CDC 流并将其持续复制到 Amazon S3 上的 Apache Iceberg 表的功能。您可以通过指定源和目标来设置 Data Firehose 流。Data Firehose 会捕获并持续复制初始数据快照,然后将对选定数据库表所做的所有后续更改作为数据流进行复制。为了获取 CDC 流,Data Firehose 使用数据库复制日志,从而减少对数据库事务性能的影响。当数据库更新量增加或减少时,Data Firehose 会自动对数据进行分区,并持久保存记录,直到它们传送到目标位置。您无需预置容量或管理和微调集群。除了数据本身之外,Data Firehose 还可以在初始 Data Firehose 流创建过程中,使用与数据库表相同的架构自动创建 Apache Iceberg 表,并根据源架构的变化自动演进目标架构(例如添加新列)。

查看原始Aurora表数据

使用query editor查询表数据

创建CDC流

创建Firehose Stream

Schema Evolution

变更表结构,添加新的数据列

sql 复制代码
ALTER TABLE orders 
ADD COLUMN comment VARCHAR;

插入新的数据:

sql 复制代码
INSERT INTO orders (
   customer_id,
   total_amount,
   order_status,
   payment_method,
   shipping_address,
   comment
) VALUES (
   1001,                                       -- customer_id
   249.99,                                     -- total_amount
   'Processing',                               -- order_status
   'Credit Card',                              -- payment_method
   '123 Main Street, Apt 4B, New York, NY',    -- shipping_address
   'Please deliver after 5pm'                  -- comment
);

查询最新数据:

sql 复制代码
SELECT * 
FROM "pawmart"."public_orders" 
ORDER BY order_id DESC 
LIMIT 10;
相关推荐
AC赳赳老秦17 小时前
OpenClaw+Power Apps 实战:自动生成 Power Apps 应用、连接 Excel 数据源
大数据·开发语言·python·serverless·excel·deepseek·openclaw
keke.shengfengpolang17 小时前
数据科学与大数据技术和大数据管理与应用怎么抉择?
大数据
产业家18 小时前
AI长跑,来到了腾讯的主场
大数据·人工智能
小赖同学啊18 小时前
可信数据空间中异构数据处理与安全保障方案
大数据
HavenlonLabs19 小时前
重塑链上未来的隐形基石:长期主义下的生态演进
大数据·人工智能·安全·区块链
huangdong_19 小时前
京东商品图片视频批量下载与m3u8视频合并技术完整实现方案
大数据·前端·数据库
Java 码思客19 小时前
【ElasticSearch从入门到架构师】第9章:ES 读写底层流程深度拆解
大数据·elasticsearch·搜索引擎
ttt606_19 小时前
门店业绩上报系统功能拆解:门店业绩上报如何提高数据精确度与时效性?
大数据·人工智能
ACP广源盛1392462567319 小时前
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢
大数据·人工智能·嵌入式硬件·gpt·spark
blue_dou20 小时前
灵活拓展能力对决:多款CRM自定义与数据互通实测
大数据·人工智能