AWS Catalog中数据搬到Catalog中

问题

最近需要将AWS Catalog数据库中的数据,进行清洗到另外一个AWS Catalog中。

解决

创建目标数据库

bash 复制代码
CREATE DATABASE dev_xxx_silver;

这里使用bronze (raw), silver (validated) and gold (enriched)这种大数据架构,进行命名的。这里是直接使用AWS Athena创建的数据库,AWS Athena创建数据库不支持连字符 (-)。

创建目标S3桶

创建目标表

可以不用设置字段有哪些,如下图:

表创建成功之后,还需要设置表属性,如下图:

设置表属性,如下:

  • useGlueParquetWriter:true


AWS Glue PySpark 任务

python 复制代码
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from awsglue.dynamicframe import DynamicFrame
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME', 'SOURCE_DB_NAME', 'SOURCE_TABLE_NAME', 'TARGET_DB_NAME', 'TARGET_TABLE_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

# 1. 从第一个 Catalog 表加载数据
source_dyf = glueContext.create_dynamic_frame_from_catalog(
    database = args['SOURCE_DB_NAME'], 
    table_name = args['SOURCE_TABLE_NAME']
)

# 2. 转换与过滤 (转换为 Spark DataFrame 处理更方便)
df = source_dyf.toDF()
filtered_df = df.filter("year = 2026 AND month = 4 AND day = 20") # 指定日期

# 3. 写回到另一个 Catalog 表
# 转回 DynamicFrame
target_dyf = DynamicFrame.fromDF(filtered_df, glueContext, "target_dyf")

# 4. 写入目标 Catalog 数据库和表
glueContext.write_dynamic_frame_from_catalog(
    frame = target_dyf,
    database = args['TARGET_DB_NAME'],  # 你的新库名
    table_name = args['TARGET_TABLE_NAME'],
    additional_options = {
        "enableUpdateCatalog": True, 
        "updateBehavior": "UPDATE_IN_DATABASE",
        "partitionKeys": ["year", "month", "day"] # 如果你有分区字段(如日期),建议加上
    },
    transformation_ctx = "write_ctx"
)

job.commit()

效果

s3中的文件:

总结

青铜,白银,黄金。算是大数据里面的三层架构了。有云作为支撑,普通人使用大数据还是比较容易的,只是公司用云有点贵。

参考

相关推荐
zzzzzz3102 小时前
当产品经理说这个很简单:我用Python自动化处理奇葩需求的实战指南
python·pycharm·产品经理
雪隐3 小时前
个人电脑玩AI-06让5060 Ti给你打工——不光能画画,Qwen3-TTS还能学人说话,连我老板都信了!
人工智能·后端·python
兵慌码乱14 小时前
面向桌面端的资产管理系统分层架构设计与核心模块实现
python·系统架构·sqlite·pyqt5·数据库设计·桌面应用开发·mvc架构
hboot16 小时前
AI工程师第三课 - 机器学习基础
python·scikit-learn·kaggle
顾林海20 小时前
Agent入门阶段-编程基础-Python:流程控制
python·agent·ai编程
呱呱复呱呱1 天前
Django CBV 源码解读:一个请求是怎么找到你的 get() 方法的
python·django
曲幽1 天前
刚部署的 LibreTranslate 频频翻车?我掏出了 20 年前的 StarDict 词典,用 FastAPI 搭了个本地词典翻译 API
python·fastapi·web·translate·goldendict·libretranslate·stardict·pystardict
荣码1 天前
用Streamlit给AI应用套个界面,10行代码出Web页面
java·python
大大大大晴天1 天前
Hudi技术内幕:RecordPayload到RecordMerger
大数据
兵慌码乱2 天前
基于Python+PyQt5+SQLite的药房管理系统实现:事务一致性与界面解耦全流程解析
python·sqlite·信号与槽·pyqt5·数据库设计·桌面应用开发·事务处理