CDH集群离线配置python3环境，并安装pyhive、impyla、pyspark

背景：

项目需要对数仓千万级数据进行分析、算法建模。因数据安全，数据无法大批量导出，需在集群内进行分析建模，但CDH集群未安装python3 环境，需在无网情况下离线配置python3环境及一系列第三方库。

采取策略，使用外部联网linux环境创建python3虚拟环境，然后整体迁移集群环境。

文章目录

- - - - 1. 外部机器和集群统一安装anaconda3环境 $官网下载地址$ (https://www.anaconda.com/download#downloads))
      - [2. 外部机器安装pyhive、impyla、pyspark、ipykernel](#2. 外部机器安装pyhive、impyla、pyspark、ipykernel)
      - [3. 环境迁移](#3. 环境迁移)
      - [4. 问题解决(坏的解释器：没有那个文件或目录)](#4. 问题解决(坏的解释器：没有那个文件或目录))
      - [5. jupyterlab 内核生成](#5. jupyterlab 内核生成)
      - [6. pyhive、impyla连接测试](#6. pyhive、impyla连接测试)
      - [7. pyspark 对接CDH集群spark测试【pyspark版本要和集群CDH spark版本一致】](#7. pyspark 对接CDH集群spark测试【pyspark版本要和集群CDH spark版本一致】)

1. 外部机器和集群统一安装anaconda3环境官网下载地址

shell 复制代码

>> sh Anaconda3-2023.03-1-Linux-x86_64.sh

2. 外部机器安装pyhive、impyla、pyspark、ipykernel

shell 复制代码

>> conda create -n python3.7 python=3.7  # 创建py3.7虚拟环境，CDH集群spark2.4.0最高支持python3.7
>> conda activate python3.7       # 激活虚拟环境
>> pip install pyhive,impyla,pyspark # pip会自动安装thrif等依赖包，若报gcc等系统问题，具体问题百度分析
>> pip install ipykernel        # 创建jupyter内核使用，使用jupyterlab远程进行数据分析
>> pip install scikit-learn、lightgbm # 安装其他需要第三方库

3. 环境迁移

shell 复制代码

外部机器/anaconda3/envs>> zip -r python3.7.zip ./python3.7  # 压缩整个虚拟环境
集群/anaconda3/envs>> unzip python3.7.zip                  # 大功告成

4. 问题解决(坏的解释器：没有那个文件或目录)

迁移后 >> ./pip 提示找不到python解释器

迁移后 ipykernel 提示找不到python解释器

解决：

进入envs/python3.7/bin 下，修改pip、pip3、ipykernel等命令内容，将第一行改为集群python对应路径。

5. jupyterlab 内核生成

shell 复制代码

#1 激活、退出虚拟环境
>> conda activate python3.7    [conda deactivate]

#2. 虚拟环境下
>> ipython kernel install --user --name=python3.7

#3. 重启jupyter-lab 查看即可
>> nohup ./jupyter-lab --allow-root > /data/xx/anaconda3/log.out &

# 备注：jupyterlab 服务由anaconda3主环境base创建
>> jupyter-lab --generate-config (配置远程访问)
>> vim jupyter_lab_config.py
'''
c.ServerApp.ip = '0.0.0.0'
c.ServerApp.port = 8888
c.ServerApp.passwd = 8888
c.ServerApp.notebook_dir = '/data/xx/anaconda3/data'
c.ServerApp.open_browser = False
c.NotebookApp.passwords = {
    'user1': 'sha1:user1_password_hash', # >> python -c "from notebook.auth import passwd; print(passwd())" 生成用户密码
    'user2': 'sha1:user2_password_hash',
    'user3': 'sha1:user3_password_hash'
}
'''

6. pyhive、impyla连接测试

python 复制代码

from pyhive import hive
from impala.dbapi import connect
from impala.util import as_pandas

## python 读取数仓第一种方式  hive:jbdc
# pyhive 连接
conn = hive.Connection(host='namenode',port=10000,database='库名')
cursor = conn.cursor()

# 执行查询
cursor.execute('desc user_info')
col_name = [i[0] for i in cursor.fetchall()]
cursor.execute('select * from user_info limit 2')
data = cursor.fetchall()
print(pd.DataFrame(data=data,columns=col_name))

# 关闭hive连接
cursor.close()
conn.close()

## python 读取数仓第二种方式  impala:jbdc
# 连接impala
conn = connect(host='namenode',port=21050,database='库名')
cursor = conn.cursor()

# 执行查询
cursor.execute('select * from user_info where name is not null')
data = as_pandas(cursor)

备注：使用pyhive和impyla 读取数据，还是读取到一台集群节点内存上，速度慢，占内存，且分析比较困难，适合小批量处理。如处理千万级数据，还是使用pyspark进行并行分析。

7. pyspark 对接CDH集群spark测试【pyspark版本要和集群CDH spark版本一致】

python 复制代码

## python 分析大量数据 pyspark
import os
from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession

import warnings
warnings.filterwarnings(action='ignore')

# 制定集群spark、hadoop家目录

os.environ['SPARK_HOME'] = '/opt/cloudera/parcels/CDH-6.3.4-1.cdh6.3.4.p0.6751098/lib/spark'
os.environ['HADOOP_CONF_DIR'] = '/opt/cloudera/parcels/CDH-6.3.4-1.cdh6.3.4.p0.6751098/lib/hadoop'
os.environ['PYSPARK_PYTHON'] = './py3/bin/python' 

parameters = [('spark.app.name','sklearn'),
              ('spark.yarn.dist.files','hdfs://namenode:8020/python3/python3.7.zip#py3')
             ('spark.master','yarn'),
            ('spark.submit.deploymode','client'),
             ]

conf = SparkConf().setAll(parameters)
#sc = SparkContext.getOrCreate(conf=conf)
spark = SparkSession.builder.config(conf=conf).enableHiveSupport().getOrCreate()
spark

备注：一般会报

Permission denied: user=root, access=WRITE, inode="/user/spark/applicationHistory":spark:spark:drwxr-xr-x 权限错误，

这是因为写代码得用户时jupyter服务启动用户，而CDH 中hadoop、hive、spark 文件的用户分别为hdfs、hive、spark用户。