Apache Spark

一、Apache Spark

1、Spark简介

Apache Spark是用于大规模数据 (large-scala data) 处理的统一 (unified) 分析引擎

Spark官网

Spark最早源于一篇论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的Matei Zaharia等人发表的。论文中提出了一种弹性分布式数据集(即RDD)的概念。

javascript 复制代码
    A distributed memory abstraction that lets programmers perform n in-memory computations 
on large clusters in a fault-tolerant manner.
翻译过来就是:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,
并且有一定的容错方式。而这也是整个 Spark 的核心数据结构,Spark整个平台都围绕着RDD进行。

简而言之,Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。

Spark是一款分布式内存计算的统一分析引擎。其特点就是对任意类型的数据进行自定义计算。

Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。

Spark的适用面非常广泛,所以,被称之为统一的 (适用面广) 的分析引擎 (数据处理)。

Hadoop分布式文件系统(一)

无善无恶心之体,有善有恶意之动。
知善知恶是良知,为善为恶是格物。

相关推荐
isfox14 小时前
Hadoop 版本进化论:从 1.0 到 2.0,架构革命全解析
大数据·后端
星环科技TDH社区版16 小时前
星环科技产品可存储的表格式功能介绍以及创建示例
大数据·数据库
百度Geek说17 小时前
百度垂搜数据管理系统弹性调度优化实践
大数据·搜索引擎
白鲸开源19 小时前
DSIP-91提案解读:简化工作流调试和发布的方案,等你来探讨!
大数据
C++ 老炮儿的技术栈21 小时前
VSCode -配置为中文界面
大数据·c语言·c++·ide·vscode·算法·编辑器
白鲸开源1 天前
SQL Server CDC 机制全解:如何用 SeaTunnel 构建高效实时数据同步方案
大数据
小巫程序Demo日记1 天前
SparkUI依赖问题解决方法
java·spark
小巫程序Demo日记1 天前
Spark简介脑图
大数据·笔记·spark
武子康1 天前
大数据-14-Hive HQL 表连接查询 HDFS导入导出 逻辑运算 函数查询 全表查询
大数据·后端·apache hive
猿助码头qq3526746981 天前
django基于Spark的国漫推荐系统
ajax·spark·django