使用dataGrip连接spark

概述:

spark的配置共有5种

1、本地模式

2、集群模式:standalone, yarn,k8s,mesos四种集群模式

spark本身只是一个计算引擎,是没有数据库的,所以说数据需要在hdfs上存放,而数据库就是使用hive,都已经启动hdfs了,就使用yarn模式即可,而使用standalone模式就不合适了。

因此以下的配置是基于hdfs+yarn+spark进行配置的。

一、配置

要想spark知道hive中所有的数据库,那么就需要将spark和metastore服务联系起来

1、在hive下的hive-site.xml中添加

复制代码
<property>
		<name>hive.metastore.schema.verification</name>
		<value>false</value>
	</property>

2、将hive的该文件复制到spark的conf下

复制代码
cp /opt/installs/hive/conf/hive-site.xml /opt/installs/spark/conf

3、分发一下spark中的该文件

复制代码
xsync.sh opt/installs/spark/conf/hive-site.xml

二、启动

复制代码
1、启动hadoop
2、启动metastore
3、启动Spark Thrift Server

启动ThriftServer:若已经启动过hiveserver2 那么记得将端口号改为10001

复制代码
opt/installs/spark/sbin/start-thriftserver.sh \
--hiveconf hive.server2.thrift.port=10000 \
--hiveconf hive.server2.thrift.bind.host=bigdata01 \
--master yarn \
--conf spark.sql.shuffle.partitions=2

hiveServer2 和 thriftserver的区别:

只需访问 Hive 表,无需 Spark 的计算能力:

使用 HiveServer2,更简单,且原生支持 Hive 功能。

需要访问 Hive 表,并利用 Spark 的计算引擎:

使用 Spark Thrift Server,可以充分利用 Spark 的分布式计算能力。

相关推荐
Justice Young25 分钟前
Flink第六章:flink中的时间和窗口
大数据·flink
xingyuzhisuan1 小时前
算力租赁平台 GPU 资源隔离方案:显存抢占问题深度排查与解决
大数据·云计算·gpu算力
天天讯通2 小时前
OKCC 呼叫中心安全性能全解析:技术防护与管理措施指南
大数据·开发语言·网络·人工智能·安全·语音识别
名不经传的养虾人3 小时前
从0到1:企业级AI项目迭代日记 Vol.47|从“能说”到“能上手”
大数据·人工智能·ai编程·企业ai·多agent协作
MicroTech20254 小时前
业绩披露|微算法科技(MLGO)2025年净利润1.27亿元
大数据·人工智能·科技
AGIPlayer4 小时前
没有生态的大模型不算前沿
大数据·人工智能·物联网
weilaieqi14 小时前
际连集团:印尼公司注册代办一站式服务
大数据
林间码客4 小时前
04 ROC曲线与AUC:从零开始手动计算
大数据·人工智能·算法
穆利堂-movno15 小时前
住宅、写字楼、高校、医院物业后勤数字化升级:“收费+巡检+工单”全链路落地思路
大数据
makise-5 小时前
破译大数据底层密码:从 HDFS 存储基石到现代分布式计算引擎的架构演进
大数据·hdfs·架构