Spark

Spark工作原理及基础概念(超详细!)_spark原理-CSDN博客

初识 Spark - 7000字+15张图解,学习 Spark 入门基础知识-腾讯云开发者社区-腾讯云

Spark基本概念

分布式并行计算框架

Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发的通用内存并行计算框架,借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。使用场景如下:

  • 复杂的批量处理(Batch Data Processing),偏重点在于处理海量数据的能力,至于处理速度可忍受,通常的时间可能是在数十分钟到数小时;
  • 基于历史数据的交互式查询(Interactive Query),通常的时间在数十秒到数十分钟之间
  • 基于实时数据流的数据处理(Streaming Data Processing),通常在数百毫秒到数秒之间
  • Spark 已经成为大数据领域中必备的计算引擎框架
  • Spark 已经基本替代了传统的 MapReduce 离线计算框架和 Storm 流式实时计算框架

1,Spark 的特性

1,Simple 简单易用,spark封装了java python SQL等语言API

2,Fast 比MR快很多

3,Scalable(可融合性)。 使用Hadoop YARN 作用资源管理及调度器

4,Unified(统一通用)。之前离线任务计算用MR,实时流任务计算用storm,这个都支持

2,优势

1,高性能,MR计算结果放在HDFS磁盘上,Spark计算结果放在内存中,内存不够,放磁盘中

3,Spark 的生态圈(组成模块)

4,Spark 的运行原理

1,Spark 的运行模式

2,Spark 的集群架构及角色

Spark 的集群架构主要由 Cluster Manager(集群资源管理器)、Worker (工作节点)、Executor(执行器)、Driver(驱动器)、Application(应用程序)共五部分角色组成


spark与hive结合

两条路线

Spark On Hive (Hive只用于连接数据源)

Hive On Spark

谁在前谁负责解析sql,最终的执行逻辑都是RDD(Spark代替了MR)

代码示例

jar依赖

core 对应RDD

sql

相关推荐
云云3212 小时前
怎么通过亚矩阵云手机实现营销?
大数据·服务器·安全·智能手机·矩阵
新加坡内哥谈技术2 小时前
苏黎世联邦理工学院与加州大学伯克利分校推出MaxInfoRL:平衡内在与外在探索的全新强化学习框架
大数据·人工智能·语言模型
Data-Miner3 小时前
经典案例PPT | 大型水果连锁集团新零售数字化建设方案
大数据·big data
lovelin+v175030409663 小时前
安全性升级:API接口在零信任架构下的安全防护策略
大数据·数据库·人工智能·爬虫·数据分析
道一云黑板报3 小时前
Flink集群批作业实践:七析BI批作业执行
大数据·分布式·数据分析·flink·kubernetes
节点。csn3 小时前
flink集群搭建 详细教程
大数据·服务器·flink
数据爬坡ing4 小时前
小白考研历程:跌跌撞撞,起起伏伏,五个月备战历程!!!
大数据·笔记·考研·数据分析
云云3214 小时前
云手机方案全解析
大数据·服务器·安全·智能手机·矩阵
飞来又飞去5 小时前
kafka sasl和acl之间的关系
分布式·kafka
武子康5 小时前
大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构
java·大数据·数据仓库·hive·hadoop·后端