需要提前搭建好hive,并对hive进行配置。
1、将hive的配置文件添加到spark的目录下
bash
cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf
2、开启hive的hivemetastore服务
提前创建好启动日志存放路径
mkdir $HIVE_HOME/logStart
bash
nohup /usr/local/lib/apache-hive-3.1.3-bin/bin/hive --service metastore > logStart/hivemetastore.log 2>&1 &
3、开启spark的thriftserver服务,运行端口为1000
bash
cd $SPARK_HOME/sbin
start-thriftserver.sh
注意:其实还是hive的thirftserver服务,同时还需要启动spark集群
4、远程连接thirftserver服务
连接thirftserver服务后,就可以使用hive的元数据(hive在hdfs中的数据库和表),并且将spark作为分析引擎,来执行hivesql了。
那我自己集群的数据做例子:
bash
show databases ;
use clickhouse;