本文主要介绍 jupyter kernelgateway 在工作中的运用
基本介绍
Jupyter Kernel Gateway 是一个 Web 服务器,提供对 Jupyter 内核的无头访问。应用程序通过 REST 调用和 Websockets 远程与内核通信。
安装
shell
pip install jupyter_kernel_gateway
运行
shell
jupyter kernelgateway
定义一个./my_example.ipynb
,使用 jupyter kernelgateway 对外暴露服务
python
# GET /hello/world
import json
import requests
import numpy as np
req = json.loads(REQUEST)
res = dict(data=np.random.randn(5, 4).tolist(), request=req)
print(json.dumps(res))
bash
jupyter kernelgateway --KernelGatewayApp.api=kernel_gateway.notebook_http --KernelGatewayApp.seed_uri=./my_example.ipynb --port=10100
[KernelGatewayApp] Kernel started: 12ac2daa-c62a-47e4-964a-336734557656
[KernelGatewayApp] Registering resource: /hello/world, methods: (['GET'])
[KernelGatewayApp] Registering resource: /_api/spec/swagger.json, methods: (GET)
[KernelGatewayApp] Jupyter Kernel Gateway at http://127.0.0.1:10100
GET 调用
定义一个带有两个路径参数 firstName 和 lastName 的接口
python
# GET /hello/:firstName/:lastName
req = json.loads(REQUEST)
data = req['path']
logging.info("name:%s" % (data['firstName']), extra = extra)
logging.info("name:%s" % (data['lastName']), extra = extra)
POST 调用
python
# POST /consistency_check/hive_vs_hive
req = json.loads(REQUEST)
data = req['body']
logging.info("请求参数:%s" % json.dumps(data), extra = extra)
可以看到 GET 和 POST ,取值的不同,GET 是从 REQUEST 对象的 path
中取值,POST 是从 REQUEST 对象的 body
中取值。
工作使用
两个数仓之间的数据比对、以及 hive 和 mysql 之间的数据导入导出,都是用 pyspark 实现的。
在 java 端会调用 python 服务,此时就是使用 jupyter kernelgateway 来对外暴露 python 服务的。
那么 java 和 python 之间是怎么通信的呢?
其实是通过 redis 的发布订阅
模式,java 端去订阅channel,python 端执行结束后发布事件。