使用FastAPI和Apache Flink构建跨环境数据管道

系统概述

本文介绍如何使用FastAPI微服务、Apache Flink和AWS ElastiCache Redis构建一个可扩展的数据管道,实现本地Apache Hive数据仓库与AWS云上Redis之间的数据交互。

该架构通过FastAPI提供RESTful接口,Apache Flink处理数据流,实现了本地Hive与云上Redis的高效数据交互。部署时需特别注意网络配置和安全设置,确保各组件间通信顺畅。

架构设计

系统架构分为三个主要组件:

复制代码
+-------------------+       +-------------------+       +-------------------+
| 本地环境          |       | Apache Flink      |       | AWS环境           |
| Apache Hive数据仓库 | <---> | 流处理引擎        | <---> | ElastiCache Redis |
+-------------------+       +-------------------+       +-------------------+

详细设计

1. FastAPI微服务

作为API层,提供与Redis交互的端点:

关键组件:

  • 使用aioredis实现异步Redis操作
  • 提供三种核心端点:GET/POST/DELETE

示例代码:

python 复制代码
from fastapi import FastAPI, HTTPException 
import aioredis
import json

app = FastAPI()
REDIS_URL = "redis://your-elasticache-endpoint:6379"
redis = aioredis.from_url(REDIS_URL, encoding="utf-8", decode_responses=True)

@app.get("/data/{key}")
async def get_data(key: str):
    value = await redis.get(key)
    if value is None:
        raise HTTPException(status_code=404, detail="Item not found")
    return json.loads(value)

@app.post("/data/{key}")
async def set_data(key: str, value: dict):
    await redis.set(key, json.dumps(value))
    return {"message": "Data stored successfully"}

@app.delete("/data/{key}")
async def delete_data(key: str):
    await redis.delete(key)
    return {"message": "Data deleted successfully"}

部署方式:

  • 使用Uvicorn在EC2实例上运行
  • 或通过AWS Elastic Beanstalk部署
  • 配置安全组开放8000端口
  • 使用AWS Secrets Manager管理Redis凭证

2. Apache Flink流处理器

功能:

  • 从本地Hive数据仓库读取数据
  • 处理后写入AWS ElastiCache Redis

关键组件:

  • Hive Catalog配置
  • Redis Sink连接器

示例代码:

python 复制代码
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
HiveCatalog hive = new HiveCatalog("my_catalog", "default", hiveConf);
env.addSource(new FlinkHiveSource(...))
   .addSink(new RedisSink<>(new RedisSinkFunction(...)));
env.execute("Flink Streaming Job");

部署方式:

  • 使用Amazon Kinesis Data Analytics
  • 或在EC2上自管理
  • 配置网络访问权限
  • 建议使用AWS Direct Connect确保安全连接

部署步骤

FastAPI部署

  1. 设置EC2实例或Elastic Beanstalk环境
  2. 安装依赖:pip install fastapi aioredis uvicorn
  3. 运行应用:uvicorn main:app --host 0.0.0.0 --port 8000

Flink部署

  1. 在AWS上设置Flink环境
  2. 配置Hive Catalog和Redis Sink
  3. 提交并监控Flink作业

Redis配置

  1. 在AWS创建ElastiCache Redis集群
  2. 配置安全组和VPC设置

测试用例

FastAPI端点测试

  1. 测试GET /data/{key}(存在/不存在的键)
  2. 测试POST /data/{key}(有效/无效数据)
  3. 测试DELETE /data/{key}(存在/不存在的键)

Flink流处理测试

验证数据能正确从Hive读取

关键Python代码

python 复制代码
# FastAPI主程序
from fastapi import FastAPI, HTTPException 
import aioredis
import json

app = FastAPI()
REDIS_URL = "redis://your-elasticache-endpoint:6379"
redis = aioredis.from_url(REDIS_URL, encoding="utf-8", decode_responses=True)

@app.get("/data/{key}")
async def get_data(key: str):
    value = await redis.get(key)
    if value is None:
        raise HTTPException(status_code=404, detail="Item not found")
    return json.loads(value)

@app.post("/data/{key}")
async def set_data(key: str, value: dict):
    await redis.set(key, json.dumps(value))
    return {"message": "Data stored successfully"}

@app.delete("/data/{key}")
async def delete_data(key: str):
    await redis.delete(key)
    return {"message": "Data deleted successfully"}
相关推荐
程序员爱钓鱼1 分钟前
Python 综合项目实战:学生成绩管理系统(命令行版)
后端·python·ipython
Brsentibi1 分钟前
基于python代码自动生成关于建筑安全检测的报告
python·microsoft
程序员爱钓鱼2 分钟前
REST API 与前后端交互:让应用真正跑起来
后端·python·ipython
gCode Teacher 格码致知2 小时前
Python基础教学:Python的openpyxl和python-docx模块结合Excel和Word模板进行数据写入-由Deepseek产生
python·excel
thekenofdis3 小时前
Lua脚本执行多个redis命令提示“CROSSSLOT Keys in request don‘t hash to the same slot“问题
redis·lua·哈希算法
Destiny_where4 小时前
Agent平台-RAGFlow(2)-源码安装
python·ai
molunnnn4 小时前
第四章 Agent的几种经典范式
开发语言·python
Lucifer三思而后行5 小时前
使用 BR 备份 TiDB 到 AWS S3 存储
数据库·tidb·aws
linuxxx1106 小时前
django测试缓存命令的解读
python·缓存·django