Spark的基本概念

个人博客地址:Spark的基本概念 | 一张假钞的真实世界

编程接口

  • RDD:弹性分布式数据集(Resilient Distributed Dataset )。Spark2.0之前的编程接口。Spark2.0之后以不再推荐使用,而是被Dataset替代。
  • Dataset:Spark2.0之后的编程接口,用来替代RDD。与RDD不同Dataset是强数据类型的,但是这一点不适用与pyspark,因为Python是弱类型的。Spark引擎针对Dataset做了更丰富的优化,所以比RDD有更高的性能。
  • Dataframe:在Python(Pandas)和R中Dataset的组织形式;在Scala中没有这个概念。

架构

  • Application:基于Spark构建的用户程序。包含驱动程序和执行器。
  • Application jar:用户程序Jar包。
  • Driver program:驱动程序。用户程序中运行main()方法及创建SparkContext的进程。
  • Cluster manager:集群管理者。管理集群资源的外部服务。如:standalone manager, Mesos, YARN, Kubernetes。
  • Deploy mode:用来指明驱动程序运行位置。集群模式下框架在集群中调起驱动程序;客户端模式下在集群之外的程序提交者调起驱动程序。
  • Worker node:集群中运行应用程序的节点。
  • Executor:Worker节点上调起的为用户应用程序的进程,运行任务并在内存中或磁盘是行保持数据。每个应用程序都有自己的Executor。
  • Task:发送到Executor的工作单元。
  • Job:由多个任务组成的并行计算,这些任务响应Spark操作(例如保存、收集)而生成;您将在驱动程序日志中看到这个术语。
  • Stage:每个作业被划分为更小的任务集,称为相互依赖的阶段(类似于MapReduce中的map和reduce阶段);您将在驱动程序日志中看到这个术语。
相关推荐
Elastic 中国社区官方博客30 分钟前
Elasticsearch:构建一个 AI 驱动的电子邮件钓鱼检测
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
金融小师妹42 分钟前
AI量化视角:美11月CPI数据冲击下的美联储降息预期鸽派与资产定价重构
大数据·人工智能·深度学习
Lethehong1 小时前
【探索实战】Kurator分布式云原生平台快速上手与实战指南
分布式·云原生
Elastic 中国社区官方博客1 小时前
Kibana 数据可视化的新配色方案 —— 我们如何以及为什么创建它
大数据·elasticsearch·搜索引擎·信息可视化·全文检索·kibana
福客AI智能客服1 小时前
智能客服机器人:家居建材电商的场景化服务核心
大数据·人工智能·机器人
画江湖Test1 小时前
分布式缓存穿透解决方案
分布式·缓存·电商系统·缓存解决方案
Lethehong2 小时前
【探索实战】Kurator分布式云原生平台全栈实践指南:从入门到企业级落地
分布式·云原生
TG:@yunlaoda360 云老大2 小时前
如何评估华为云国际站代理商跨境合规要求?
大数据·数据库·华为云·云计算
CHrisFC2 小时前
汽车零配件检测实验室LIMS系统应用实践
大数据·人工智能·汽车
Wnq100722 小时前
在去中心化的边缘计算机集群中部署分布式 CORBA 及其AGENT
分布式·去中心化·区块链