spark on hive

！@1232023-10-06 13:17

需要提前搭建好hive，并对hive进行配置。

1、将hive的配置文件添加到spark的目录下

bash 复制代码

cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf

提前创建好启动日志存放路径

mkdir $HIVE_HOME/logStart

bash 复制代码

nohup /usr/local/lib/apache-hive-3.1.3-bin/bin/hive --service metastore  > logStart/hivemetastore.log 2>&1 &

bash 复制代码

cd $SPARK_HOME/sbin
start-thriftserver.sh

注意：其实还是hive的thirftserver服务，同时还需要启动spark集群

连接thirftserver服务后，就可以使用hive的元数据（hive在hdfs中的数据库和表），并且将spark作为分析引擎，来执行hivesql了。

那我自己集群的数据做例子：

bash 复制代码

show databases ;
use clickhouse;