大数据Spark(五十五):Spark框架及特点

文章目录

Spark框架及特点

一、Spark框架介绍

二、Spark计算框架具备以下特点


Spark框架及特点

一、Spark框架介绍

Apache Spark 是一个专为大规模数据处理而设计的快速、通用的计算引擎 。最初由加州大学伯克利分校的 AMP 实验室(Algorithms, Machines, and People Lab)开发,并于 2010 年开源,2014 年成为 Apache 顶级项目。Spark 的诞生旨在突破传统 Hadoop MapReduce 在迭代计算和内存利用上的局限性,与 MapReduce 不同,Spark 可以将作业中间结果缓存于内存中,减少对磁盘的读写操作,因此在需要多次迭代计算的数据处理场景(如数据挖掘和机器学习)中表现出色。

Spark官网地址:https://spark.apache.org/

二、Spark计算框架具备以下特点

  • 处理数据速度快

与 MapReduce 每个任务都需要将中间结果写入磁盘不同,Spark 能够将作业中间数据缓存于内存中,得益于内存计算和优化的查询执行方式,Spark 在内存中的运算速度比 Hadoop 的 MapReduce 快 100 倍,在磁盘上的速度也快 10 倍。

  • 简单易用

Spark在处理数据过程中提供了几十个丰富的高级API(算子操作),这些高级API大大降低了编程的复杂度。

  • 多语言支持

Spark 底层使用 Scala 编写,开发者可以使用 Scala、Java、Python、SQL 和 R 等语言进行编程,满足不同开发者的需求。

  • 丰富的生态系统

Spark 拥有多个功能强大的模块,通过这些模块可以处理结构/非结构数据、API/SQL处理批量/流式数据、机器学习、图计算,使 Spark 能够处理多种复杂数据处理任务。

  • 支持多模式运行部署

Spark 可以在单机、小型集群甚至上千节点的分布式环境中高效运行。它能够与多种集群管理器(如 Standalone、YARN、Mesos、Kubernetes)和分布式存储系统(如 HDFS、Amazon S3 等)无缝集成,适应不同规模的数据处理需求。


  • 📢博客主页:https://lansonli.blog.csdn.net
  • 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!
  • 📢本文由 Lansonli 原创,首发于 CSDN博客🙉
  • 📢停下休息的时候不要忘了别人还在奔跑,希望大家抓紧时间学习,全力奔赴更美好的生活✨
相关推荐
面向Google编程1 小时前
Flink源码阅读:JobManager的HA机制
大数据·flink
Tony Bai2 小时前
【分布式系统】03 复制(上):“权威中心”的秩序 —— 主从架构、一致性与权衡
大数据·数据库·分布式·架构
汽车仪器仪表相关领域4 小时前
全自动化精准检测,赋能高效年检——NHD-6108全自动远、近光检测仪项目实战分享
大数据·人工智能·功能测试·算法·安全·自动化·压力测试
大厂技术总监下海4 小时前
根治LLM胡说八道!用 Elasticsearch 构建 RAG,给你一个“有据可查”的AI
大数据·elasticsearch·开源
石像鬼₧魂石5 小时前
22端口(OpenSSH 4.7p1)渗透测试完整复习流程(含实战排错)
大数据·网络·学习·安全·ubuntu
TDengine (老段)6 小时前
TDengine Python 连接器进阶指南
大数据·数据库·python·物联网·时序数据库·tdengine·涛思数据
数据猿8 小时前
【金猿CIO展】如康集团CIO 赵鋆洲:数智重塑“顶牛”——如康集团如何用大数据烹饪万亿肉食产业的未来
大数据
txinyu的博客9 小时前
HTTP服务实现用户级窗口限流
开发语言·c++·分布式·网络协议·http
独自破碎E9 小时前
RabbitMQ中的Prefetch参数
分布式·rabbitmq
zxsz_com_cn10 小时前
设备预测性维护的意义 工业设备预测性维护是什么
大数据