Apache Spark

一、Apache Spark

1、Spark简介

Apache Spark是用于大规模数据 (large-scala data) 处理的统一 (unified) 分析引擎

Spark官网

Spark最早源于一篇论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的Matei Zaharia等人发表的。论文中提出了一种弹性分布式数据集(即RDD)的概念。

javascript 复制代码
    A distributed memory abstraction that lets programmers perform n in-memory computations 
on large clusters in a fault-tolerant manner.
翻译过来就是:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,
并且有一定的容错方式。而这也是整个 Spark 的核心数据结构,Spark整个平台都围绕着RDD进行。

简而言之,Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。

Spark是一款分布式内存计算的统一分析引擎。其特点就是对任意类型的数据进行自定义计算。

Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。

Spark的适用面非常广泛,所以,被称之为统一的 (适用面广) 的分析引擎 (数据处理)。

Hadoop分布式文件系统(一)

无善无恶心之体,有善有恶意之动。
知善知恶是良知,为善为恶是格物。

相关推荐
MetrixAeroCore21 小时前
企业级全球物联网连接平台|Metrix SIM 卡 + Cloud 管理・API・合规
大数据
AI极客菌1 天前
AI绘画工具中,为什么专业玩家爱用Stable Diffusion,普通玩家却喜欢Midjourney?
大数据·人工智能·ai·ai作画·stable diffusion·aigc·midjourney
腾视科技AI1 天前
腾视科技大模型一体机解决方案:低成本私有化落地,重塑行业智能应用新格局
大数据·人工智能·科技·ai·边缘计算·算力·ai算力
金融支付架构实战指南1 天前
支付系统 ES 实战案例:从索引创建到真实业务查询
大数据·elasticsearch·搜索引擎·支付
百胜软件@百胜软件1 天前
从“数据孤岛”到“智利标杆”:百胜E3全渠道中台助力“名创优品”Newtree实现一体化智变
大数据·人工智能·零售数字化·数智中台·珠宝行业
lizhihai_991 天前
股市学习心得-A股服务器/算力服务器龙头
大数据·运维·服务器·人工智能·科技·学习
AllData公司负责人1 天前
大模型赋能AllData数据中台,系列升级|通过联合智谱大模型与BiSheng开源项目,建设企业大模型应用开发平台,支持知识库向量检索!
大数据·数据结构·数据库·算法·大模型·向量数据库·智谱ai
Antom全球收单1 天前
面对多市场、多币种、多支付方式,Antom如何帮助企业搭建全球支付平台
大数据
数智化管理手记1 天前
标准作业越推越虚?重塑认知、规避误区,破解精益落地形式主义
大数据·网络·精益工程
一只鹿鹿鹿1 天前
网络安全评估方案
java·大数据·运维·物联网·web安全