Apache Spark

一、Apache Spark

1、Spark简介

Apache Spark是用于大规模数据 (large-scala data) 处理的统一 (unified) 分析引擎

Spark官网

Spark最早源于一篇论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的Matei Zaharia等人发表的。论文中提出了一种弹性分布式数据集(即RDD)的概念。

javascript 复制代码
    A distributed memory abstraction that lets programmers perform n in-memory computations 
on large clusters in a fault-tolerant manner.
翻译过来就是:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,
并且有一定的容错方式。而这也是整个 Spark 的核心数据结构,Spark整个平台都围绕着RDD进行。

简而言之,Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。

Spark是一款分布式内存计算的统一分析引擎。其特点就是对任意类型的数据进行自定义计算。

Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。

Spark的适用面非常广泛,所以,被称之为统一的 (适用面广) 的分析引擎 (数据处理)。

Hadoop分布式文件系统(一)

无善无恶心之体,有善有恶意之动。
知善知恶是良知,为善为恶是格物。

相关推荐
QYZL_AIGC13 分钟前
陪伴式 AI 赋能:全域众链让中小微实体数字化转型 “不踩坑”
大数据·人工智能
双层吉士憨包39 分钟前
如何注册Talkatone免费美国号码?实测有效方案
大数据·运维·网络
培培说证1 小时前
2026 高职大数据专业零基础能考的证书有哪些?
大数据
Python_Study20251 小时前
工程材料企业如何通过智慧获客软件破解市场困局:方法论、架构与实践
大数据·网络·数据结构·人工智能·架构
zpedu2 小时前
PMP、软考中项、高项,你选哪个?
大数据
newsxun2 小时前
科技为刃,破界解锁全生命周期营养新时代
大数据·人工智能·科技
终端域名2 小时前
域名科普:常见的域名分类及特点
大数据·数字货币域名·网站域名
龙山云仓3 小时前
No132:AI中国故事-对话老子——道法自然与AI设计:无为而治、柔弱胜刚强与复杂系统智慧
大数据·人工智能·机器学习
开源能源管理系统3 小时前
MyEMS:开源赋能,构筑智慧能源管理新生态
大数据·开源·能源·能源管理系统
weixin199701080164 小时前
马可波罗 item_get - 获取商品详情接口对接全攻略:从入门到精通
java·大数据·人工智能