大数据学习(29)-spark on yarn底层原理

viperrrrrrrrrr72023-12-24 15:25

💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

Spark on Yarn的底层原理以下几个方面：

资源申请与调度：Spark通过YARN的接口向ResourceManager申请资源。ResourceManager根据集群的状态和应用程序的需求，为Spark分配相应的资源。Spark接收到资源后，通过YARN的接口与NodeManager通信，请求启动任务。
任务分配与执行：Spark ApplicationMaster启动后，会向ResourceManager注册并获取任务。然后，ApplicationMaster会根据任务的依赖关系和执行顺序，将任务分配给各个NodeManager执行。NodeManager负责启动和监控任务，并将任务的执行状态和结果报告给ApplicationMaster。
容错机制：YARN提供了容错机制，当某个NodeManager出现故障时，ResourceManager会重新为Spark分配资源，确保任务能够正常运行。
资源回收：当Spark应用程序完成后，ApplicationMaster会向ResourceManager注销，并释放资源。ResourceManager会将资源回收并重新分配给其他应用程序使用。

总的来说，Spark on Yarn的底层原理是通过YARN的资源管理和调度机制，为Spark应用程序提供资源分配、任务执行和容错处理等功能。