glue

AWS Glue PySpark中日志设置需要在PySpark中设置日志在AWS Glue Python任务中，应用程序日志都是输出到Error logs里面，Output logs里面的日志是print打印出来的日志。在AWS Glue Python Shell任务中，日志设置方式与上面不同：

AWS Catalog中数据搬到Catalog中最近需要将AWS Catalog数据库中的数据，进行清洗到另外一个AWS Catalog中。这里使用bronze (raw), silver (validated) and gold (enriched)这种大数据架构，进行命名的。这里是直接使用AWS Athena创建的数据库，AWS Athena创建数据库不支持连字符 (-)。

AWS Glue Python Shell中获取外网ip想要确定AWS Glue任务出站流量的外网ip是不是自己配置的vpc外网nat网关ip。

AWS Glue Python Shell任务中获取AWS SM中的加密配置需要再AWS Glue Python Shell中获取敏感配置。这里通过boto3客户端获取。

AWS Glue Python Shell任务中pip安装依赖库由于我需要使用AWS Glue没有依赖的库，现在需要告诉AWS Glue Python Shell任务运行任务之前需要安装相关依赖库。

AWS Glue Python Shell任务中读取Athena数据库怎样在AWS Glue Python Shell任务中读取Athena数据库中的数据通过awswrangler读取

AWS中国云中的ETL之从Amazon Glue Data Catalog搬数据到MySQL（Glue版）现在需要从Amazon Glue Data Catalog定时T+1聚合查询结果保存到MySQL中。首先登录mysql，创建拥有读写的数据库用户：

AWS中国云中的ETL之从aurora搬数据到s3（Glue版——修复版）AWS中国云中的ETL之从aurora搬数据到s3（Glue版）之前这个方式，在数据比较大的情况下，会出现对mysql全表扫描问题。

江小皮不皮

大模型训练数据集汇总当前大多数以上词级别的NLU模型都是针对特定任务设计的，而针对各种任务都能执行的通用模型尚未实现。为了解决这个问题，作者提出了GLUE，希望通过这个评测平台促进通用NLU系统的发展。

我是有底线的