Apache Spark

一、Apache Spark

1、Spark简介

Apache Spark是用于大规模数据 (large-scala data) 处理的统一 (unified) 分析引擎

Spark官网

Spark最早源于一篇论文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的Matei Zaharia等人发表的。论文中提出了一种弹性分布式数据集(即RDD)的概念。

javascript 复制代码
    A distributed memory abstraction that lets programmers perform n in-memory computations 
on large clusters in a fault-tolerant manner.
翻译过来就是:RDD 是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,
并且有一定的容错方式。而这也是整个 Spark 的核心数据结构,Spark整个平台都围绕着RDD进行。

简而言之,Spark借鉴了MapReduce思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。

Spark是一款分布式内存计算的统一分析引擎。其特点就是对任意类型的数据进行自定义计算。

Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。

Spark的适用面非常广泛,所以,被称之为统一的 (适用面广) 的分析引擎 (数据处理)。

Hadoop分布式文件系统(一)

无善无恶心之体,有善有恶意之动。
知善知恶是良知,为善为恶是格物。

相关推荐
Thomas21432 分钟前
spark view永久保存 + paimon对应的view
大数据·分布式·spark
小北方城市网12 分钟前
Redis 缓存设计与避坑实战:解决穿透 / 击穿 / 雪崩
java·大数据·数据库·redis·python·elasticsearch·缓存
天远云服14 分钟前
Node.js实战:天远车辆出险查询API接口调用流程、代码接入与场景应用
大数据·node.js
福客AI智能客服18 分钟前
信任驱动:客服AI系统与智能AI客服重构电商服务价值
大数据·人工智能·机器人
郑州光合科技余经理20 分钟前
O2O上门预约小程序:全栈解决方案
java·大数据·开发语言·人工智能·小程序·uni-app·php
dongpengli25 分钟前
2026年iPaas系统集成平台综合分析及选型参考
大数据·运维·人工智能·自动化办公·ipaas·企业系统集成
新诺韦尔API26 分钟前
车架号查询接口对接全流程详解
大数据·开发语言·python·api
weixin_4624462326 分钟前
Java 使用 Apache Batik 将 SVG 转换为 PNG(指定宽高)
java·apache·svg转png
学习3人组27 分钟前
Apache Superset开源现代化数据BI工具
开源·apache
SelectDB技术团队30 分钟前
AI 能力揭秘(五):Apache Doris 原生向量检索的设计及实现
人工智能·apache