Apache Iceberg on AWS - 通过Firehose流式导入数据到Iceberg表

整体介绍

Amazon Data Firehose 支持从数据库获取 CDC 流并将其持续复制到 Amazon S3 上的 Apache Iceberg 表的功能。您可以通过指定源和目标来设置 Data Firehose 流。Data Firehose 会捕获并持续复制初始数据快照,然后将对选定数据库表所做的所有后续更改作为数据流进行复制。为了获取 CDC 流,Data Firehose 使用数据库复制日志,从而减少对数据库事务性能的影响。当数据库更新量增加或减少时,Data Firehose 会自动对数据进行分区,并持久保存记录,直到它们传送到目标位置。您无需预置容量或管理和微调集群。除了数据本身之外,Data Firehose 还可以在初始 Data Firehose 流创建过程中,使用与数据库表相同的架构自动创建 Apache Iceberg 表,并根据源架构的变化自动演进目标架构(例如添加新列)。

查看原始Aurora表数据

使用query editor查询表数据

创建CDC流

创建Firehose Stream

Schema Evolution

变更表结构,添加新的数据列

sql 复制代码
ALTER TABLE orders 
ADD COLUMN comment VARCHAR;

插入新的数据:

sql 复制代码
INSERT INTO orders (
   customer_id,
   total_amount,
   order_status,
   payment_method,
   shipping_address,
   comment
) VALUES (
   1001,                                       -- customer_id
   249.99,                                     -- total_amount
   'Processing',                               -- order_status
   'Credit Card',                              -- payment_method
   '123 Main Street, Apt 4B, New York, NY',    -- shipping_address
   'Please deliver after 5pm'                  -- comment
);

查询最新数据:

sql 复制代码
SELECT * 
FROM "pawmart"."public_orders" 
ORDER BY order_id DESC 
LIMIT 10;
相关推荐
蒸汽求职2 小时前
机器人软件工程(Robotics SDE):特斯拉Optimus落地引发的嵌入式C++与感知算法人才抢夺战
大数据·c++·算法·职场和发展·机器人·求职招聘·ai-native
诸葛务农2 小时前
AGI 主要技术路径及核心技术:归一融合及未来之路5
大数据·人工智能
J2虾虾4 小时前
数据分析师课程
大数据
大力财经5 小时前
纳米漫剧流水线接入满血版Seedance 2.0 实现工业级AI漫剧确定性交付
大数据·人工智能
AI周红伟5 小时前
OpenClaw是什么?OpenClaw能做什么?OpenClaw详细介绍及保姆级部署教程-周红伟
大数据·运维·服务器·人工智能·微信·openclaw
Elastic 中国社区官方博客5 小时前
当 TSDS 遇到 ILM:设计不会拒绝延迟数据的时间序列数据流
大数据·运维·数据库·elasticsearch·搜索引擎·logstash
Omics Pro5 小时前
虚拟细胞:开启HIV/AIDS治疗新纪元的关键?
大数据·数据库·人工智能·深度学习·算法·机器学习·计算机视觉
沐风___6 小时前
Claude Code 权限模式完全指南:Auto、Bypass、Ask 三模式深度解析
大数据·elasticsearch·搜索引擎
qq_5470261797 小时前
LangChain 工具调用(Tool Calling)
java·大数据·langchain
黎阳之光9 小时前
黎阳之光:数智科技破局湖库富营养化,筑造水生态治理新标杆
大数据·人工智能·科技·安全·数字孪生