Python连接Hive实例教程

一 Python连接hive环境实例

经在网络查询相关的教程,发现有好多的例子,发现连接底层用的的驱动基本都是pyhive和pyhs2两种第三方库的来连接的 hive,下面将简介windows 10 python 3.10 连接hive的驱动程序方式,开发工具:pycharm ,经过测试已成功,分享给大家,有什么问题,可私信与我。

1 第一种:Python安装支持hive相关的库(pyhive)

1.1 安装sasl,本人建议采用离线安装方式,减少在线自动版本解决的问题

1.1.1 查询python版本 ,在命令下执行如下命令,如果不行,请查阅相关python安装教程

复制代码
python --version

如下图所示

1.1.2 下载sasl相应版本的库(whl), 此处++特别注意版本++,如果版本不一致,导致不能安装同时使用

我的python为python 3.10的,

cp310:表示为python的版本,为python 3 10的

win_amd64:表示为驱动为windows 64位的驱动

下载网址(包括其他离线库和包):sasl下载版本地址https://www.lfd.uci.edu/~gohlke/pythonlibs/#sasl

相应包:sasl-0.3.1-cp310-cp310-win_amd64.whl在

复制代码
pip install  sasl-0.3.1-cp310-cp310-win_amd64.whl

1.1.3 安装sasl,切换python环境的根目录,命令为

复制代码
pip install  sasl-0.3.1-cp310-cp310-win_amd64.whl

如下图所示,此处显示已安装成功的提示


1.2 安装thrift,命令如下,此处没有特别注意事项,如果有的话,请联系我

复制代码
pip install thrift

如下图所示

1.3 安装thrift_sasl,命令如下

复制代码
pip install thrift_sasl

1.4 安装phhive,命令如下

复制代码
pip install pyhive

如下图所示,已安装提示

2 第二种: Python安装支持hive相关的库(pyhs2)

2.1 如果安装中,有提供c++的库或相关工具,建立直接执行c++库包,我本采采用的360的全部C++库的安装方式,此方法简单明了,减少缺包的情况;或到微信官网下功相应的包安装。

注:此步要很重要

2.1 安装命令如下

复制代码
pig install  pyhs2

二 Python开发实例


1 (本人推荐)使用pyhive和pandas连接和操作数据库,使用ORM框架(sqlalchemy)的
create_engine连接数据库,,代码如下
复制代码
from pyhive import hive
import pandas as pd
import thrift_sasl
import puresasl
import sasl

# 定义数据库连接
from sqlalchemy import create_engine,types


# 读取数据
def select_pyhive(sql):
    # 创建hive连接

    engine = create_engine("hive://10.88.221.112:10000/ods")

    try:
        df = pd.read_sql(sql, engine)
        return  df
    finally:
        if engine:
            engine.dispose()


#执行函数
df=select_pyhive('SHOW DATABASES')
print(df)
2 使用pyhive和pandas连接和操作数据库,使用pyhive中的connection来连接hive,代码如下
复制代码
from pyhive import hive
import pandas as pd

# 读取数据
def select_pyhive(sql):
    # 创建hive连接
    conn = hive.Connection(host='10.88.221.112', port=10000, username='hive', password='hive',database='ods')

    try:
        df = pd.read_sql(sql, conn)
        return  df
    finally:
        if conn:
            conn.close()



#执行函数
df=select_pyhive('SHOW DATABASES')
print(df)
相关推荐
源图客1 小时前
境外电商 - 龙虾智能体-综合选品推荐报告
开发语言·javascript·ecmascript
是苏浙1 小时前
Java实现链表1
java·开发语言
KANGBboy1 小时前
hive UDF函数
数据仓库·hive·hadoop
叫我:松哥1 小时前
基于Python的共享单车租赁数据分析与预测系统,技术栈flask+boostrap+随机森林+XGBoost
人工智能·python·深度学习·算法·随机森林·数据分析·flask
Jinkxs1 小时前
Rust 性能优化全流程:从 flamegraph 定位瓶颈到 unsafe 与 SIMD 加速,响应快 2 倍
开发语言·性能优化·rust
Li#1 小时前
web端电商项目自动下单发货评价晒图需要用到的能力
python·自动化
尘中远2 小时前
Qt高性能绘图库QIm——实现二维三维科学绘图
开发语言·qt·信息可视化
雨辰AI2 小时前
从零搭建大模型本地运行环境|Python+CUDA 基础配置避坑大全
大数据·开发语言·人工智能·python·ai·ai编程·ai写作
DogDaoDao2 小时前
【第 05 篇】Python的字典与集合
开发语言·python·集合·字典
兰令水2 小时前
leecodecode【单调栈】【2026.6.12打卡-java版本】
java·开发语言·算法