Spark基本介绍

神秘打工猴2025-01-03 17:12

一，Spark是什么

1.定义：Aache Spark是用于大规模数据处理的统一分析引擎。

二，Spark的发展

三，Spark的特点

高效性
- 计算速度快
  - 提供了一个全新的数据结构RDD（弹性分布式数据集）。整个计算操作，基于内存计算。当内存不足的时候，可以放置到磁盘上。整个流程是基于DAG(有向无环图)执行方案。
  - Task线程完成计算任务执行
易用性
- 支持多种语言开发 （Python，SQL，Java，Scala，R），降低了学习难度
通用性
- 在 Spark 的基础上，Spark 还提供了包括Spark SQL、Spark Streaming、MLlib 及GraphX在内的多个工具库(模块)，我们可以在一个应用中无缝地使用这些工具库。
兼容性（任何地方运行）
- 支持三方工具接入
  - 存储工具
    - hdfs
    - kafka
    - hbase
  - 资源调度
    - yarn
    - Kubernetes（K8s容器）
    - standalone（spark自带的）
  - 高可用
    - zookeeper
- 支持多种操作系统
  - Linux
  - windows
  - Mac

给一个快速记忆的方法: speed, easy use , general , runs everywhere