使用dataGrip连接spark

概述:

spark的配置共有5种

1、本地模式

2、集群模式:standalone, yarn,k8s,mesos四种集群模式

spark本身只是一个计算引擎,是没有数据库的,所以说数据需要在hdfs上存放,而数据库就是使用hive,都已经启动hdfs了,就使用yarn模式即可,而使用standalone模式就不合适了。

因此以下的配置是基于hdfs+yarn+spark进行配置的。

一、配置

要想spark知道hive中所有的数据库,那么就需要将spark和metastore服务联系起来

1、在hive下的hive-site.xml中添加

复制代码
<property>
		<name>hive.metastore.schema.verification</name>
		<value>false</value>
	</property>

2、将hive的该文件复制到spark的conf下

复制代码
cp /opt/installs/hive/conf/hive-site.xml /opt/installs/spark/conf

3、分发一下spark中的该文件

复制代码
xsync.sh opt/installs/spark/conf/hive-site.xml

二、启动

复制代码
1、启动hadoop
2、启动metastore
3、启动Spark Thrift Server

启动ThriftServer:若已经启动过hiveserver2 那么记得将端口号改为10001

复制代码
opt/installs/spark/sbin/start-thriftserver.sh \
--hiveconf hive.server2.thrift.port=10000 \
--hiveconf hive.server2.thrift.bind.host=bigdata01 \
--master yarn \
--conf spark.sql.shuffle.partitions=2

hiveServer2 和 thriftserver的区别:

只需访问 Hive 表,无需 Spark 的计算能力:

使用 HiveServer2,更简单,且原生支持 Hive 功能。

需要访问 Hive 表,并利用 Spark 的计算引擎:

使用 Spark Thrift Server,可以充分利用 Spark 的分布式计算能力。

相关推荐
TDengine (老段)2 小时前
TDengine 转化类函数 TO_CHAR 用户手册
大数据·数据库·物联网·时序数据库·tdengine·涛思数据
黄雪超2 小时前
Kafka——多线程开发消费者实例
大数据·分布式·kafka
阿里巴巴淘系技术团队官网博客2 小时前
面向互联网2C业务的分布式类Manus Java框架
java·开发语言·分布式
ManageEngineITSM3 小时前
从混乱到秩序:IT服务管理如何重塑企业运营效率
大数据·人工智能·程序人生·职场和发展·itsm
sniper_fandc4 小时前
RabbitMQ—HAProxy负载均衡
分布式·rabbitmq·负载均衡
你想知道什么?4 小时前
RabbitMQ简述
分布式·rabbitmq
青云交4 小时前
Java 大视界 -- 基于 Java 的大数据分布式存储在工业互联网数据管理与边缘计算协同中的创新实践(364)
java·大数据·边缘计算·工业互联网·分布式存储·paxos·数据协同
数据爬坡ing5 小时前
软件工程之可行性研究:从理论到实践的全面解析
大数据·流程图·软件工程·可用性测试
晴天彩虹雨6 小时前
统一调度与编排:构建自动化数据驱动平台
大数据·运维·数据仓库·自动化·big data·etl
sanggou8 小时前
Zookeeper的分布式事务与原子性:深入解析与实践指南
分布式·zookeeper·云原生