spark on hive

需要提前搭建好hive,并对hive进行配置。

1、将hive的配置文件添加到spark的目录下

bash 复制代码
cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf

2、开启hive的hivemetastore服务

提前创建好启动日志存放路径

mkdir $HIVE_HOME/logStart

bash 复制代码
nohup /usr/local/lib/apache-hive-3.1.3-bin/bin/hive --service metastore  > logStart/hivemetastore.log 2>&1 &

3、开启spark的thriftserver服务,运行端口为1000

bash 复制代码
cd $SPARK_HOME/sbin
start-thriftserver.sh

注意:其实还是hive的thirftserver服务,同时还需要启动spark集群

4、远程连接thirftserver服务

连接thirftserver服务后,就可以使用hive的元数据(hive在hdfs中的数据库和表),并且将spark作为分析引擎,来执行hivesql了。

那我自己集群的数据做例子:

bash 复制代码
show databases ;
use clickhouse;
相关推荐
未来之窗软件服务3 小时前
一体化系统(九)智慧社区综合报表——东方仙盟练气期
大数据·前端·仙盟创梦ide·东方仙盟·东方仙盟一体化
火星资讯6 小时前
Zenlayer AI Gateway 登陆 Dify 市场,轻装上阵搭建 AI Agent
大数据·人工智能
星海拾遗7 小时前
git rebase记录
大数据·git·elasticsearch
Elastic 中国社区官方博客7 小时前
Elasticsearch:在分析过程中对数字进行标准化
大数据·数据库·elasticsearch·搜索引擎·全文检索
香精煎鱼香翅捞饭9 小时前
记一次多线程调用TDEngine restful获取数据的时间异常
大数据·时序数据库·tdengine
AI_567810 小时前
Webpack5优化的“双引擎”
大数据·人工智能·性能优化
慎独41310 小时前
家家有平台:Web3.0绿色积分引领消费新纪元
大数据·人工智能·物联网
百***243711 小时前
GPT-5.2 技术升级与极速接入指南:从版本迭代到落地实践
大数据·人工智能·gpt
专业开发者12 小时前
奇迹由此而生:回望 Wi-Fi® 带来的诸多意外影响
大数据
尔嵘12 小时前
git操作
大数据·git·elasticsearch