Spark On Hive配置测试及分布式SQL ThriftServer配置

文章目录

Spark On Hive的原理及配置

  • Spark本身是一个执行引擎,而没有管理metadate的能力,当我们在执行SQL的时候只能将SQL转化为RDD提交。而对于一些数据中的元数据Spark并不知道,而Spark能写SQL主要是通过DataFrame进行注册的。
  • 这时候我们就可以借助Hive中的MetaStore进行元数据管理。也就是说把Hive中的metastore服务器直接拿过来给Spark使用。

配置步骤

  1. 在spark安装的conf目录下创建hive-site.xml
xml 复制代码
<configuration>
    <!-- 告知spark创建表位置 -->
    <property>
        <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive/warehouse</value>
    </property>

    <!-- 告知spark hive metastore位置 -->
    <property>
        <name>hive.metastore.uris</name>
        <value>thrift://node1:9083</value>
    </property>
</configuration>
  1. 将mysql驱动Jar包放在spark安装的jars目录中
  2. 确保Hive配置了metastore的服务
xml 复制代码
<!-- 远程模式部署metastore metastore地址 -->
<property>
    <name>hive.metastore.uris</name>
    <value>thrift://node1:9083</value>
</property>
  1. 启动metastore服务
bash 复制代码
 nohup bin/hive --service metastore 2>&1 >> /export/server/apache-hive-3.1.2/log/metastore.log &
  1. 测试:在spark安装的bin目录下,启动spark-sql直接编写sql。

在代码中集成Spark On Hive

python 复制代码
# 确保metastore服务是开启的
if __name__ == '__main__':
    ss = SparkSession.builder \
        .appName("test") \
        .master("local[*]") \
        .config("spark.sql.shuffle.partitions", 2) \
        .config("spark.sql.warehouse.dir", "hdfs://node1:8020/user/hive/warehouse/") \
        .config("hive.metastore.uris", "thrift://node1:9083") \
        .enableHiveSupport() \
        .getOrCreate()
    sc = ss.sparkContext

    ss.sql('''select * from student''').show()

Spark分布式SQL执行原理及配置

  • Spark中ThriftServer,监听10000端口的服务,能够使开发者直接使用数据库工具或者代码连接,并且直接通过编写SQL来操作Spark。前提确保metastore服务+spark on hive配置

配置步骤

  1. 配置spark on hive步骤相同
  2. 启动ThriftServer服务
bash 复制代码
./start-thriftserver.sh --hiveconf hive.server2.thrift.port=10000 --hiveconf hive.server2.thrift.bind.host=node1 --master local[2]
  1. 测试:通过DBeaver等工具连接Spark

在代码中集成Spark JDBC ThriftServer

  1. 安装pyhive所需要的linux依赖包
bash 复制代码
yum install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel libffi-devel gcc make gcc-c++ python-devel cyrus-sasl-devel cyrus-sasl-plain cyrus-sasl-gssapi -y
pip install pyhive pymysql sasl thrift thrift_sasl
  1. 代码测试
python 复制代码
from pyhive import hive

if __name__ == '__main__':
    # 获取到Hive(Spark Thrift连接)
    conn = hive.connect(host="node1", port=10000, username="root")
    # 获取一个游标对象
    cursor = conn.cursor()
    # 执行SQL
    cursor.execute("SELECT * FROM student")
    # 通过fetchall函数返回结果
    res = cursor.fetchall()
    print(res)

总结

  • 分布式SQL执行引擎就是使用Spark提供的ThriftServer服务,以"后台进程"的模式持续运行,对外提供端口。
  • SQL提交后,底层运行的就是Spark任务。相当于构建了一个以MetaStore服务为元数据,Spark为执行引擎的数据库服务,像操作数据库那样方便的操作SparkSQL进行分布式的SQL计算。
相关推荐
milanyangbo1 小时前
从硬盘I/O到网络传输:Kafka与RocketMQ读写模型及零拷贝技术深度对比
java·网络·分布式·架构·kafka·rocketmq
有梦想的攻城狮2 小时前
Rabbitmq在死信队列中的队头阻塞问题
分布式·rabbitmq·死信队列·延迟队列
Wang's Blog2 小时前
Elastic Stack梳理:深度解析Elasticsearch分布式查询机制与相关性算分优化实践
分布式·elasticsearch
bxlj_jcj2 小时前
分布式ID方案、雪花算法与时钟回拨问题
分布式·算法
java1234_小锋3 小时前
Kafka与RabbitMQ相比有什么优势?
分布式·kafka·rabbitmq
yumgpkpm3 小时前
腾讯TBDS和CMP(Cloud Data AI Platform,类Cloudera CDP,如华为鲲鹏 ARM 版)比较的缺陷在哪里?
hive·hadoop·elasticsearch·zookeeper·oracle·kafka·hbase
松☆3 小时前
Flutter 与 OpenHarmony 数据持久化协同方案:从 Shared Preferences 到分布式数据管理
分布式·flutter
踏浪无痕4 小时前
准备手写Simple Raft(四):日志终于能"生效"了
分布式·后端
B站计算机毕业设计之家4 小时前
机器学习:python智能电商推荐平台 大数据 spark(Django后端+Vue3前端+协同过滤 毕业设计/实战 源码)✅
大数据·python·spark·django·推荐算法·电商
龙仔7254 小时前
实现分布式读写集群(提升两台服务器的性能,支持分片存储+并行读写),Redis Cluster(Redis集群模式)并附排错过程
服务器·redis·分布式