使用python连接hive数仓

1 版本参数

查看hadoop和hive的版本号

shell 复制代码
ls -l /opt
# 总用量 3
# drwxr-xr-x  11 root  root  227 1月  26 19:23 hadoop-3.3.6
# drwxr-xr-x  10 root  root  205 2月  12 18:53 hive-3.1.3
# drwxrwxrwx.  4 root  root   32 2月  11 22:19 tmp

查看java版本号

shell 复制代码
java -version
# java version "1.8.0_391"
# Java(TM) SE Runtime Environment (build 1.8.0_391-b13)
# Java HotSpot(TM) 64-Bit Server VM (build 25.391-b13, mixed mode)

查看mysql版本号

shell 复制代码
mysql --version
# mysql  Ver 8.0.35 for Linux on x86_64 (MySQL Community Server - GPL)

2 启动环境

启动hadoop集群

shell 复制代码
start-all.sh
# WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER. Using value of HADOOP_SECURE_DN_USER.
# Starting namenodes on [ml]
# 上一次登录:三 3月  6 23:34:59 CST 2024tty1 上
# Starting datanodes
# 上一次登录:三 3月  6 23:37:56 CST 2024pts/0 上
# Starting secondary namenodes [ml]
# 上一次登录:三 3月  6 23:38:01 CST 2024pts/0 上
# Starting resourcemanager
# 上一次登录:三 3月  6 23:38:30 CST 2024pts/0 上
# Starting nodemanagers
# 上一次登录:三 3月  6 23:39:01 CST 2024pts/0 上

查看hadoop集群状态

shell 复制代码
jps|sort
# 2337 NameNode
# 2548 DataNode
# 3161 ResourceManager
# 3379 NodeManager
# 5654 Jps

启动hiveserver2服务

shell 复制代码
nohup hiveserver2 &
# [1] 7486
# (pyspark) (base) [root@~ ~]# nohup: 忽略输入并把输出追加到"nohup.out"
# 

检测hiveserver2状态

shell 复制代码
jps|grep 7486
# 7486 RunJar

检测thrift端口号状态

shell 复制代码
netstat -anp|grep 10000
# tcp6    0    0 :::10000    :::*    LISTEN    7486/java

3 安装环境

安装python第三方库

powershell 复制代码
conda install sasl
conda install thrift
conda install thrift-sasl
conda install pyhive
conda install sqlalchemy
conda install pandas

使用everything检索sasl2文件夹并打开该文件夹

在open git bash here窗口查看sasl2里面的文件

shell 复制代码
ls
# saslANONYMOUS.dll*  saslLOGIN.dll*  saslPLAIN.dll*   saslSQLITE.dll*
# saslCRAMMD5.dll*    saslNTLM.dll*   saslSASLDB.dll*  saslSRP.dll*
# saslDIGESTMD5.dll*  saslOTP.dll*    saslSCRAM.dll*

创建C:/CMU/bin/sasl2文件夹

拷贝当前文件夹的dll文件到C:/CMU/bin/sasl2文件夹中

shell 复制代码
mkdir -p C:/CMU/bin/sasl2
cp ./* C:/CMU/bin/sasl2/

4 读取数据

编写python脚本连接hive数仓

python 复制代码
import pandas as pd
from pyhive import hive
from sqlalchemy import create_engine

engine = create_engine('hive://root:ml123456@ml:10000/default?auth=LDAP')
df = pd.read_sql_query('show databases',con=engine)
df.head()

能看到数据库名记录就证明连接成功

相关推荐
装不满的克莱因瓶4 分钟前
自然语言处理常见任务——从文本理解到生成式AI的完整任务体系
人工智能·pytorch·python·深度学习·ai·自然语言处理
ptc学习者8 分钟前
python 中描述符@property property 大概的样子
开发语言·python
zmzb010310 分钟前
Python课后习题训练记录Day129
开发语言·python
秋932 分钟前
Python工程师面试常问提问和回答(AI工程化方向 · 2026版)
人工智能·python·面试
炎武丶航35 分钟前
LeNet-5深度学习详解:从手写数字识别到代码实战
人工智能·python·深度学习·机器学习·ai·cnn·lenet
sitellla35 分钟前
Pydub:用 Python 处理音频,不写废话
开发语言·python·其他·音视频
TechWayfarer1 小时前
云服务器地域怎么选:用离线IP数据库识别用户来源并优化部署
服务器·数据库·python·tcp/ip·数据分析
梦想不只是梦与想1 小时前
Python 中的进程(Process)
python·进程·进程间通
郑洁文1 小时前
基于Python的恶意流量监测系统的设计与实现
开发语言·python
星辰徐哥1 小时前
Python AI基础:Matplotlib与Seaborn数据可视化
人工智能·python·matplotlib