spark-sgg-java - 技术栈

spark的内置模块:

一 spark集群部署(yarn)

spark是一种计算框架,spark集群部署有很多种.

如果资源是当前单节点提供的,那么就称之为单机模式.
如果资源是当前多节点提供的,那么就称为分布式模式.
如果资源是由yarn提供的,那么久成为yarn部署环境.
如果资源是由spark提供的,那么就称为spark部署环境.(standalone)

在生产环境中,一般是yarn部署环境.(spark on yarn)

如上图所示,将业务代码提交到spark到提交,然后用资源去计算.
复制代码
bin /spark-submit --class spark.pi --master yarn ./examples/jars/spark-examples.jar 10
上边代码表示使用bin/spark-submit脚本,执行spark.pi类,jar包在./examples/jars/spark-examples.jar路径下,迭代10次.

问题:spark是怎么知道yarn在哪里并且连接到他的?

答:在配置spark的时候,/opt/module/spark/conf/spark-env.sh脚本中配置了:YARN_CONF_DIR=/opt/module/hadoop/etc/hadoop,该目录下的yarn-site.xml中配置了yarn的resource manager在那台机器.
配置历史服务:

想查看spark的执行的记录,需要配一个历史服务.

修改spark-default.conf文件:在该文件中添加

spark.eventLog.enabled true
spark.enventLog.dir hdfs://hadoop102:8020/directory

日志会保存到hdfs的directory 文件下,所以要先创建这个目录.

spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080

修改spark-env.sh ,添加如下配置:

重启spark历史服务

重新提交任务到yarn上:

web页面查看日志:http://hadoop103:8088/cluster