spark on hive

需要提前搭建好hive,并对hive进行配置。

1、将hive的配置文件添加到spark的目录下

bash 复制代码
cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf

2、开启hive的hivemetastore服务

提前创建好启动日志存放路径

mkdir $HIVE_HOME/logStart

bash 复制代码
nohup /usr/local/lib/apache-hive-3.1.3-bin/bin/hive --service metastore  > logStart/hivemetastore.log 2>&1 &

3、开启spark的thriftserver服务,运行端口为1000

bash 复制代码
cd $SPARK_HOME/sbin
start-thriftserver.sh

注意:其实还是hive的thirftserver服务,同时还需要启动spark集群

4、远程连接thirftserver服务

连接thirftserver服务后,就可以使用hive的元数据(hive在hdfs中的数据库和表),并且将spark作为分析引擎,来执行hivesql了。

那我自己集群的数据做例子:

bash 复制代码
show databases ;
use clickhouse;
相关推荐
一只专注api接口开发的技术猿9 分钟前
独立站赋能反向海淘:跨境代购系统的用户体验与支付解决方案
大数据·人工智能·ux
红烛暗盗梦24 分钟前
Flink KafkaConsumer offset是如何提交的
大数据·flink
wlsjdszls33 分钟前
数字孪生遭遇 “DeepSeek 之问”:谁在批量制造昂贵玩具?
大数据·人工智能·物联网·信息可视化·数据挖掘·数据分析·制造
白鲸开源1 小时前
全链路数据引擎:WhaleStudio驱动下的大数据调度与同步智能革新
大数据
青云交1 小时前
Java 大视界 -- 5G 与 Java 大数据融合的行业应用与发展趋势(82)
java·大数据·5g·工业制造·智能交通·技术融合·智能安防
灵魂画师向阳2 小时前
白嫖RTX 4090?Stable Diffusion:如何给线稿人物快速上色?
java·大数据·人工智能·ai作画·stable diffusion
董可伦3 小时前
Spark 源码 | 脚本分析总结
spark·源码·脚本
隔着天花板看星星4 小时前
Flink-序列化
大数据·分布式·flink
人工干智能5 小时前
科普:数据仓库中的“指标”和“维度”
大数据
不懂说话的猿5 小时前
ES传输带宽优化方案
大数据·elasticsearch·搜索引擎