spark sql执行引擎原理及配置

小蜜蜂爱编程2024-04-05 23:28

如果我们想要给上层开发人员配置好一个统一的sql开发界面，让他们统一通过sql开发即可，可通过spark中的thriftserver服务实现，与hive中的thriftserver类似，配置好该服务后，上层通过db client或者代码中通过jdbc连接即可直接使用sql操作，

该服务会去请求metastore服务得到元数据后，再将sql语句及元数据给到执行引擎，转换成rdd代码执行。

一个配置案例如下:

1.确保已经配置好了Spark On Hive

2.启动ThriftServerl即可

#直接在root账户下启动即可

$SPARK HOME/sbin/start-thriftserver.sh

--hiveconf hive.server2.thrift.port=10000

--hiveconf hive.server2.thrift.bind.host=nodel

--master local[2]

#master选择local,每一条sql都是local进程执行

#master选择yarn,每一条sql都是在YARN集群中执行