基于AWS Serverless的Glue服务进行ETL(提取、转换和加载)数据分析(三)——serverless数据分析

3 serverless数据分析

大纲

  • [3 serverless数据分析](#3 serverless数据分析)
    • [3.1 创建Lambda](#3.1 创建Lambda)
    • [3.2 创建API Gateway](#3.2 创建API Gateway)
    • [3.3 结果](#3.3 结果)
    • [3.4 总结](#3.4 总结)

3.1 创建Lambda

在Lambda中,我们将使用python3作为代码语言。

步骤 图例
1、入口
2、创建(我们选择使用python3.7)
3、IAM权限(权限可信实体需要包括Lambda才能将角色绑定到Lambda上) 见下方"IAM可信实体描述"
4、指定处理函数(处理程序要为用户程序的入口)
5、添加层(层为我们的代码运行时的环境,并且,兼容运行时要包含上一步中的运行时环境)
6、代码(在此代码中使用了boto3来连接Athena,可自定义sql,使用方法请看官方文档) 见下方"Lambda代码"

IAM可信实体描述:

XML 复制代码
{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "lambda.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        }
    ]
}

Lambda代码

python 复制代码
import boto3, os, json
import pandas as pd

from pyathena import connect
import time
REGION = "us-west-2"

# expected request: anomaly/{meter_id}?data_start={}&data_end={}&outlier_only={}
def lambda_handler(event, context):
    ATHENA_OUTPUT_BUCKET = "【待替换S3桶路径】/athena"
    DB_SCHEMA = "suzikuo_test_db"

    USE_WEATHER_DATA = 0
    pathParameter = event["pathParameters"]
    queryParameter = event["queryStringParameters"]
    METER_ID = pathParameter['meter_id']
    DATA_START = queryParameter['data_start']
    DATA_END = queryParameter['data_end']
    OUTLIER_ONLY = queryParameter['outlier_only']
    query = '''
    select * from "{}".reading_type_int
    where meter_id = '{}'
    and cast(reading_date_time as timestamp) >= timestamp '{}' and cast(reading_date_time as timestamp) < timestamp '{}'
    '''.format(DB_SCHEMA, METER_ID, DATA_START, DATA_END)

    athena = boto3.client('athena')
    response = athena.start_query_execution(
    QueryString=query,
    QueryExecutionContext={
        'Database': 'suzikuo_test_db'
    },
    ResultConfiguration={
        'OutputLocation': 's3://suzikuo-test-2022-8-4-s3/athena',
        'EncryptionConfiguration': {
            'EncryptionOption': 'SSE_S3'
        }
    }
    )
    while True:
        try:
            query_results = athena.get_query_results(
                QueryExecutionId=response['QueryExecutionId']
            )
            break
        except Exception as err:
            if 'Query has not yet finished' in str(err):
                time.sleep(3)
            else:
                raise(err)

    return query_results['ResultSet']['Rows']

3.2 创建API Gateway

使用API Gateway+Lambda 可轻松实现一个serverless架构。

步骤 图例
1、入口
2、API(我们使用的是Lambda,所以选HTTP API)
3、创建集成(指定要绑定的Lambda)
4、配置路由(指定路由要请求的集成(lambda))
5、一直下一步即可

3.3 结果

此案例只查询了某一ID的某个时间段内的数据

通过获取URI和参数,在Lambda中编写逻辑,可以实现我们对数据的任意操作。

3.4 总结

到此,我们已经完成了基于Glue ETL(提取、转换和加载)的serviceless 数据分析的全部过程了。在此案例中,我们使用到了AWS 服务中的Glue、S3、APIGateway、Lambda等服务实现了一个通过API访问的数据统计与分析接口。

相关推荐
小飞象—木兮4 小时前
《如何搭建用户分析体系指南》:定义、价值、思路、全流程实操指南、底层逻辑与落地方法···
数据分析·用户运营·用户体验
普通网友4 小时前
Serverless 框架:多云函数部署(AWS + 阿里云 + 腾讯云)
阿里云·serverless·aws
电商API_180079052477 小时前
免 TOP 入驻,第三方淘宝商品详情 API 快速接入与代码示例
java·大数据·开发语言·数据库·爬虫·数据分析
城事漫游Molly13 小时前
质性研究AI工作流(二):编码工作流 SOP
人工智能·数据分析·ai for science·定性研究·定性编码·科研工作流
TG_yunshuguoji13 小时前
亚马逊云代理商:如何用 CloudWatch+Lambda 打造自动化告警系统
大数据·运维·自动化·云计算·aws
一晌小贪欢14 小时前
第19节:地理空间分析——使用 Geopandas 绘制热力地图
开发语言·python·数据分析·pandas·数据可视化
yyuuuzz14 小时前
独立站搭建的几个核心技术问题
运维·服务器·网络·数据库·aws
李可以量化14 小时前
QMT 实战:自定义绘制专属 K 线(下篇)—— 国产库与高性能库全解析
python·信息可视化·数据分析·量化·qmt·ptrade
YangYang9YangYan15 小时前
2026会计人员学数据分析对个人能力的提升
数据挖掘·数据分析
YangYang9YangYan15 小时前
2026运营人员学数据分析的价值
数据挖掘·数据分析