Apache Spark

一、Apache Spark

1、Spark简介

Apache Spark是用于大规模数据 (large-scala data) 处理的统一 (unified) 分析引擎

Spark官网

Spark最早源于一篇论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的Matei Zaharia等人发表的。论文中提出了一种弹性分布式数据集(即RDD)的概念。

javascript 复制代码
    A distributed memory abstraction that lets programmers perform n in-memory computations 
on large clusters in a fault-tolerant manner.
翻译过来就是:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,
并且有一定的容错方式。而这也是整个 Spark 的核心数据结构,Spark整个平台都围绕着RDD进行。

简而言之,Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。

Spark是一款分布式内存计算的统一分析引擎。其特点就是对任意类型的数据进行自定义计算。

Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。

Spark的适用面非常广泛,所以,被称之为统一的 (适用面广) 的分析引擎 (数据处理)。

Hadoop分布式文件系统(一)

无善无恶心之体,有善有恶意之动。
知善知恶是良知,为善为恶是格物。

相关推荐
Dxy123931021615 分钟前
告别重启!Elasticsearch 8.10 杀手级特性:动态同义词(Dynamic Synonyms)深度解析
大数据·elasticsearch·jenkins
宇神城主_蒋浩宇16 分钟前
最简单的es理解 数据库视角看写 ES 加 java正删改查深度分页
大数据·数据库·elasticsearch
小小王app小程序开发1 小时前
盲盒随机赏小程序核心玩法拆解与运营逻辑分析
大数据·小程序
许国栋_1 小时前
产品管理系统怎么选?2026主流工具横评、场景适配与避坑
大数据·安全·阿里云·云计算·团队开发
说私域1 小时前
AI智能名片链动2+1模式小程序在消费者商家全链路互动中的应用研究
大数据·人工智能·小程序·流量运营·私域运营
麦兜*1 小时前
深入解析云原生时代的高性能消息中间件:基于Apache Pulsar与Kafka架构对比的万亿级数据吞吐与低延迟实时处理实战
云原生·kafka·apache
SelectDB技术团队1 小时前
上市大模型企业数据基础设施的选择:MiniMax 基于阿里云 SelectDB 版,打造全球统一AI可观测中台
数据库·数据仓库·人工智能·ai·apache
newsxun1 小时前
申晨案例解析:解码猫王如何从情怀走向现象级品牌的“熊猫罗盘”重塑之路
大数据·人工智能
你喜欢喝可乐吗?2 小时前
大数据生活实例故事
大数据
SeatuneWrite2 小时前
**AI漫剧软件2025推荐,解锁沉浸式二次元内容创作新体验
大数据·人工智能·python