大数据Spark（五十五）：Spark框架及特点

文章目录

Spark框架及特点

一、Spark框架介绍

Apache Spark 是一个专为大规模数据处理而设计的快速、通用的计算引擎 。最初由加州大学伯克利分校的 AMP 实验室（Algorithms, Machines, and People Lab）开发，并于 2010 年开源，2014 年成为 Apache 顶级项目。Spark 的诞生旨在突破传统 Hadoop MapReduce 在迭代计算和内存利用上的局限性，与 MapReduce 不同，Spark 可以将作业中间结果缓存于内存中，减少对磁盘的读写操作，因此在需要多次迭代计算的数据处理场景（如数据挖掘和机器学习）中表现出色。

Spark官网地址：https://spark.apache.org/

二、Spark计算框架具备以下特点

处理数据速度快

与 MapReduce 每个任务都需要将中间结果写入磁盘不同，Spark 能够将作业中间数据缓存于内存中，得益于内存计算和优化的查询执行方式，Spark 在内存中的运算速度比 Hadoop 的 MapReduce 快 100 倍，在磁盘上的速度也快 10 倍。

简单易用

Spark在处理数据过程中提供了几十个丰富的高级API(算子操作)，这些高级API大大降低了编程的复杂度。

多语言支持

Spark 底层使用 Scala 编写，开发者可以使用 Scala、Java、Python、SQL 和 R 等语言进行编程，满足不同开发者的需求。

丰富的生态系统

Spark 拥有多个功能强大的模块，通过这些模块可以处理结构/非结构数据、API/SQL处理批量/流式数据、机器学习、图计算，使 Spark 能够处理多种复杂数据处理任务。

支持多模式运行部署

Spark 可以在单机、小型集群甚至上千节点的分布式环境中高效运行。它能够与多种集群管理器（如 Standalone、YARN、Mesos、Kubernetes）和分布式存储系统（如 HDFS、Amazon S3 等）无缝集成，适应不同规模的数据处理需求。

📢博客主页：https://lansonli.blog.csdn.net
📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！
📢本文由 Lansonli 原创，首发于 CSDN博客🙉
📢停下休息的时候不要忘了别人还在奔跑，希望大家抓紧时间学习，全力奔赴更美好的生活✨