Apache Spark

一、Apache Spark

1、Spark简介

Apache Spark是用于大规模数据 (large-scala data) 处理的统一 (unified) 分析引擎

Spark官网

Spark最早源于一篇论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的Matei Zaharia等人发表的。论文中提出了一种弹性分布式数据集(即RDD)的概念。

javascript 复制代码
    A distributed memory abstraction that lets programmers perform n in-memory computations 
on large clusters in a fault-tolerant manner.
翻译过来就是:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,
并且有一定的容错方式。而这也是整个 Spark 的核心数据结构,Spark整个平台都围绕着RDD进行。

简而言之,Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。

Spark是一款分布式内存计算的统一分析引擎。其特点就是对任意类型的数据进行自定义计算。

Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。

Spark的适用面非常广泛,所以,被称之为统一的 (适用面广) 的分析引擎 (数据处理)。

Hadoop分布式文件系统(一)

无善无恶心之体,有善有恶意之动。
知善知恶是良知,为善为恶是格物。

相关推荐
阿里云大数据AI技术1 小时前
一站式构建 AI 数据处理 Pipeline:DataWorks Notebook + MaxCompute MaxFrame 快速入门指南
大数据·人工智能
阿里云大数据AI技术1 小时前
StarRocks + Paimon: 构建 Lakehouse Native 数据引擎
大数据·人工智能
下海fallsea2 小时前
韩国零食正在占领俄罗斯
大数据·人工智能
武汉唯众智创3 小时前
全国职业院校技能大赛大数据应用开发实训室建设方案
大数据·国赛·大数据应用开发·大数据实训室·全国职业院校技能大赛·大数据应用开发实训室·大数据应用开发实验室
媒体人8884 小时前
E-E-A-T²增强框架:AI时代GEO生成式引擎优化的信任破局之道
大数据·人工智能·搜索引擎·生成式引擎优化·geo优化
Albert Edison6 小时前
【Git】分支管理
大数据·git·elasticsearch
山峰哥6 小时前
SQL优化中的索引策略与Explain分析实战
大数据·汇编·数据库·sql·编辑器
T06205146 小时前
【数据集】上市公司研发投入与专利数据-dta+xlsx(2007-2024年)
大数据
B站计算机毕业设计之家6 小时前
大数据毕业设计:基于python图书数据分析可视化系统 书籍大屏 爬虫 清洗 可视化 当当网书籍数据分析 Django框架 图书推荐 大数据
大数据·爬虫·python·机器学习·自然语言处理·数据分析·课程设计
向量引擎小橙7 小时前
生成式AI与内容产业的“冰与火之歌”:冰火交锋间的未来图景
大数据·人工智能·深度学习·集成学习