使用Python实现对接Hadoop集群(通过Hive)并提供API接口

安装必要的库

首先,确保已经安装了以下库:

python 复制代码
pip install flask
pip install pyhive

代码实现

1. app.py(主应用文件)

python 复制代码
from flask import Flask, jsonify, request, abort
from pyhive import hive
import re
from datetime import datetime

app = Flask(__name__)

# Hive连接配置
HIVE_HOST = "hadoop-cluster-ip"
HIVE_PORT = 10000
HIVE_USERNAME = "your_username"
HIVE_PASSWORD = "your_password"

# 日期格式正则表达式,用于校验输入的日期格式
DATE_FORMAT_REGEX = re.compile(r'^\d{4}-\d{2}-\d{2}$')


def validate_date(date_str):
    """
    校验日期字符串是否符合指定格式(YYYY-MM-DD)
    """
    if not DATE_FORMAT_REGEX.match(date_str):
        raise ValueError("日期格式不正确,请使用YYYY-MM-DD格式。")
    try:
        datetime.strptime(date_str, '%Y-%m-%d')
        return True
    except ValueError:
        raise ValueError("日期格式不正确,请使用YYYY-MM-DD格式。")


@app.route('/api/orders', methods=['GET'])
def get_orders():
    start_date = request.args.get('start_date')
    end_date = request.args.get('end_date')

    # 校验日期参数格式
    try:
        if start_date:
            validate_date(start_date)
        if end_date:
            validate_date(end_date)
    except ValueError as e:
        abort(400, description=str(e))

    try:
        # 连接Hive
        connection = hive.connect(
            host=HIVE_HOST,
            port=HIVE_PORT,
            username=HIVE_USERNAME,
            password=HIVE_PASSWORD
        )

        cursor = connection.cursor()

        # 构建查询语句,添加必要的防止SQL注入的处理
        query = f"SELECT order_id, order_date, order_amount FROM orders WHERE order_date BETWEEN '{start_date}' AND '{end_date}'"
        query = query.replace("'", "''")  # 将单引号替换为两个单引号,防止SQL注入

        cursor.execute(query)
        results = cursor.fetchall()

        # 将结果转换为字典列表形式
        orders = []
        for row in results:
            order = {
                "order_id": row[0],
                "order_date": row[1],
                "order_amount": row[2]
            }
            orders.append(order)

        cursor.close()
        connection.close()

        return jsonify(orders)

    except hive.DatabaseError as e:
        # 针对Hive数据库相关错误进行更详细的错误处理
        abort(500, description=f"Hive数据库错误: {str(e)}")
    except Exception as e:
        abort(500, description=f"其他错误: {str(e)}")


if __name__ == '__main__':
    app.run(debug=True)

代码解析

输入参数校验

复制代码
定义了validate_date函数,通过正则表达式和datetime.strptime来严格校验输入的日期参数是否符合YYYY-MM-DD格式。如果不符合格式,将直接返回400错误给客户端,提示正确的日期格式要求。

错误处理

复制代码
●	在get_orders函数中,对可能出现的不同类型的错误进行了更细致的处理。对于Hive数据库相关的错误(如连接失败、查询失败等),会返回500错误并明确告知是Hive数据库错误及具体错误信息。对于其他一般性的错误,同样返回500错误并给出相应的错误描述。

安全防护(防止SQL注入)

复制代码
●	在构建查询语句时,对输入的日期参数进行了处理,将单引号替换为两个单引号。这样可以在一定程度上防止SQL注入攻击,确保查询语句的安全性。

单元测试

  • 以下是使用Python的unittest模块对代码进行单元测试的示例:
python 复制代码
import unittest
from unittest.mock import patch
from app import app, validate_date

class TestApp(unittest.TestCase):

    def setUp(self):
        self.app = app.test_client()

    def test_validate_date_valid(self):
        self.assertTrue(validate_date('2024-11-10'))

    def test_validate_date_invalid_format(self):
        with self.assertRaises(ValueError) as context:
            validate_date('2024/11/10')
        self.assertEqual(str(context.exception), "日期格式不正确,请使用YYYY-MM-DD格式。")

    def test_validate_date_invalid_value(self):
        with self.assertRaises(ValueError) as context:
            validate_date('2024-13-32')
        self.assertEqual(str(context.exception), "日期格式不正确,请使用YYYY-MM-DD格式。")

    @patch('app.hive.connect')
    def test_get_orders_success(self, mock_connect):
        # 模拟查询结果
        mock_cursor = mock_connect.return_value.cursor.return_value
        mock_cursor.fetchall.return_value = [(1, '2024-11-10', 100.0)]

        response = self.app.get('/api/orders?start_date=2024-11-10&end_date=2024-11-10')
        self.assertEqual(response.status_code, 200)
        self.assertEqual(response.get_json(), [{"order_id": 1, "order_date": "2024-11-10", "order_amount": 100.0}])

    def test_get_orders_missing_parameters(self):
        response = self.app.get('/api/orders')
        self.assertEqual(response.status_code, 400)
        self.assertEqual(response.get_json()['description'], "日期格式不正确,请使用YYYY-MM-DD格式。")

    @patch('app.hive.connect')
    def test_get_orders_database_error(self, mock_connect):
        mock_connect.side_effect = hive.DatabaseError("模拟数据库错误")

        response = self.app.get('/api/orders?start_date=2024-11-10&end_date=2024-11-10')
        self.assertEqual(response.status_code, 500)
        self.assertEqual(response.get_json()['description'], "Hive数据库错误: 模拟数据库错误")

    @patch('app.hive.connect')
    def test_get_orders_general_error(self, mock_connect):
        mock_connect.side_effect = Exception("模拟一般错误")

        response = self.app.get('/api/orders?start_date=2024-11-10&end_date=2024-11-10')
        self.assertEqual(response.status_code, 500)
        self.assertEqual(response.get_json()['description'], "其他错误: 模拟一般错误")

if __name__ == '__main__':
    unittest.main()

代码块解析

上述单元测试代码主要涵盖了以下几个方面:

测试validate_date函数

• test_validate_date_valid测试了validate_date函数对于有效日期格式的验证是否正确。

• test_validate_date_invalid_format和test_validate_date_invalid_value分别测试了对于无效日期格式和无效日期值的情况,是否能正确抛出ValueError异常并给出正确的错误信息。

测试get_orders函数

• test_get_orders_success通过patch模拟了hive.connect和查询结果,测试了get_orders函数在正常情况下是否能正确返回查询结果和状态码200 。

• test_get_orders_missing_parameters测试了在缺少查询参数时,是否能正确返回400错误及相应的错误描述。

• test_get_orders_database_error和test_get_orders_general_error分别模拟了hive.DatabaseError和一般Exception的情况,测试了get_orders函数在出现不同类型错误时是否能正确返回500错误及相应的错误描述。

通过这些单元测试,可以较为全面地验证优化后的代码的正确性和可靠性,确保各个功能模块能够按照预期工作。

相关推荐
未来并未来22 分钟前
Sentinel 流量控制安装与使用
开发语言·python·sentinel
孚为智能科技31 分钟前
集装箱残损识别系统如何检测残损?它的识别率能达到多少?
大数据·图像处理·人工智能·计算机视觉·视觉检测
东皇太星1 小时前
Python 100个常用函数全面解析
开发语言·python
luofeiju2 小时前
数字图像处理与OpenCV初探
c++·图像处理·python·opencv·计算机视觉
壹米饭2 小时前
Java程序员学Python学习笔记一:学习python的动机与思考
java·后端·python
weixin_505154462 小时前
数字孪生包含哪些技术和创新?
大数据·人工智能·物联网·数据安全·数字孪生
电院工程师2 小时前
SM3算法Python实现(无第三方库)
开发语言·python·算法·安全·密码学
A达峰绮3 小时前
AI时代的行业重构:机遇、挑战与生存法则
大数据·人工智能·经验分享·ai·推荐算法
摇滚侠3 小时前
elasticSearch是什么,如何使用,有什么用
大数据·elasticsearch·搜索引擎
CodeDevMaster3 小时前
在Jupyter Notebook中使用Conda虚拟环境
python·jupyter