Spark基本介绍

一,Spark是什么

1.定义:Aache Spark是用于大规模数据处理的统一分析引擎。

二,Spark的发展

三,Spark的特点

  • 高效性

    • 计算速度快

      • 提供了一个全新的数据结构RDD(弹性分布式数据集)。整个计算操作,基于内存计算。当内存不足的时候,可以放置到磁盘上。整个流程是基于DAG(有向无环图)执行方案。

      • Task线程完成计算任务执行

  • 易用性

    • 支持多种语言开发 (Python,SQL,Java,Scala,R),降低了学习难度
  • 通用性

    • 在 Spark 的基础上,Spark 还提供了包括Spark SQL、Spark Streaming、MLlib 及GraphX在内的多个工具库(模块),我们可以在一个应用中无缝地使用这些工具库。
  • 兼容性(任何地方运行)

    • 支持三方工具接入

      • 存储工具

        • hdfs

        • kafka

        • hbase

      • 资源调度

        • yarn

        • Kubernetes(K8s容器)

        • standalone(spark自带的)

      • 高可用

        • zookeeper
    • 支持多种操作系统

      • Linux

      • windows

      • Mac

给一个快速记忆的方法: speed, easy use , general , runs everywhere

相关推荐
.生产的驴2 分钟前
Elasticsearch 文档批处理 混合处理 批量操作
大数据·后端·elasticsearch·搜索引擎·微信小程序·全文检索·jenkins
drebander21 分钟前
SQL 分析函数与聚合函数的组合应用
大数据·数据库·sql
B站计算机毕业设计超人1 小时前
计算机毕业设计Python动漫推荐系统 漫画推荐系统 动漫视频推荐系统 机器学习 bilibili动漫爬虫 数据可视化 数据分析 大数据毕业设计
大数据·python·深度学习·机器学习·网络爬虫·课程设计·推荐算法
Jim-2ha03 小时前
【踩坑】SparkSQL union/unionAll 函数的去重问题
大数据·spark·scala
GZM8888883 小时前
Elasticsearch Serverless中的数据流自动分片深度解析
大数据·elasticsearch·serverless
tatasix3 小时前
Redis 实现分布式锁
数据库·redis·分布式
.生产的驴4 小时前
Elasticsearch 操作文档对数据的增删改查操作 索引库文档 操作数据 CRUD
大数据·运维·后端·elasticsearch·搜索引擎·全文检索·jenkins
.生产的驴4 小时前
Elasticsearch 创建索引 Mapping映射属性 索引库操作 增删改查
大数据·spring boot·后端·elasticsearch·搜索引擎·spring cloud·全文检索
Elastic 中国社区官方博客5 小时前
Elasticsearch:减少 Elastic 容器镜像中的 CVE(常见的漏洞和暴露)
大数据·数据库·elasticsearch·搜索引擎·docker·云原生·全文检索
非凡的世界5 小时前
Elasticsearch分片数量是什么意思?
大数据·elasticsearch