技术栈
glue
亚林瓜子
8 天前
python
·
spark
·
日志
·
aws
·
pyspark
·
log
·
glue
AWS Glue PySpark中日志设置
需要在PySpark中设置日志在AWS Glue Python任务中,应用程序日志都是输出到Error logs里面,Output logs里面的日志是print打印出来的日志。在AWS Glue Python Shell任务中,日志设置方式与上面不同:
亚林瓜子
9 天前
大数据
·
python
·
spark
·
云计算
·
aws
·
pyspark
·
glue
AWS Catalog中数据搬到Catalog中
最近需要将AWS Catalog数据库中的数据,进行清洗到另外一个AWS Catalog中。这里使用bronze (raw), silver (validated) and gold (enriched)这种大数据架构,进行命名的。这里是直接使用AWS Athena创建的数据库,AWS Athena创建数据库不支持连字符 (-)。
亚林瓜子
14 天前
python
·
tcp/ip
·
http
·
shell
·
aws
·
vpc
·
glue
AWS Glue Python Shell中获取外网ip
想要确定AWS Glue任务出站流量的外网ip是不是自己配置的vpc外网nat网关ip。
亚林瓜子
14 天前
python
·
aws
·
glue
·
sm
AWS Glue Python Shell任务中获取AWS SM中的加密配置
需要再AWS Glue Python Shell中获取敏感配置。这里通过boto3客户端获取。
亚林瓜子
14 天前
python
·
shell
·
pip
·
aws
·
glue
·
job
AWS Glue Python Shell任务中pip安装依赖库
由于我需要使用AWS Glue没有依赖的库,现在需要告诉AWS Glue Python Shell任务运行任务之前需要安装相关依赖库。
亚林瓜子
14 天前
数据库
·
python
·
shell
·
aws
·
glue
·
athena
AWS Glue Python Shell任务中读取Athena数据库
怎样在AWS Glue Python Shell任务中读取Athena数据库中的数据通过awswrangler读取
亚林瓜子
3 个月前
python
·
mysql
·
spark
·
etl
·
aws
·
glue
·
py
AWS中国云中的ETL之从Amazon Glue Data Catalog搬数据到MySQL(Glue版)
现在需要从Amazon Glue Data Catalog定时T+1聚合查询结果保存到MySQL中。首先登录mysql,创建拥有读写的数据库用户:
亚林瓜子
5 个月前
云计算
·
etl
·
aws
·
s3
·
glue
AWS中国云中的ETL之从aurora搬数据到s3(Glue版——修复版)
AWS中国云中的ETL之从aurora搬数据到s3(Glue版) 之前这个方式,在数据比较大的情况下,会出现对mysql全表扫描问题。
江小皮不皮
2 年前
人工智能
·
深度学习
·
大模型
·
数据集
·
glue
·
squad
·
xsum
大模型训练数据集汇总
当前大多数以上词级别的NLU模型都是针对特定任务设计的,而针对各种任务都能执行的通用模型尚未实现。为了解决这个问题,作者提出了GLUE,希望通过这个评测平台促进通用NLU系统的发展。
我是有底线的