大数据处理框架(Hadoop VS PySpark)

概述

Hadoop和PySpark都是大数据处理框架,但它们有不同的架构和特点。PySpark可以运行在Hadoop之上,利用Hadoop的存储系统(HDFS)和资源管理(YARN),同时提供了更高效的内存计算能力。

对比表

特性 Hadoop (MapReduce) PySpark 关系说明
编程语言 Java为主 Python (Scala/Java API) PySpark为Python开发者提供接口
计算模型 基于磁盘的批处理 基于内存的批处理/流处理 PySpark计算效率更高
执行速度 较慢(需多次磁盘I/O) 较快(内存计算) PySpark通常比Hadoop快10-100倍
API易用性 较低(需编写Mapper/Reducer) 较高(高级API) PySpark更易上手
资源管理 原生YARN 可使用YARN/Mesos/Standalone PySpark常利用Hadoop YARN
存储系统 HDFS 支持HDFS及其他存储系统 PySpark可读写HDFS数据
实时处理 不支持 支持(Spark Streaming) PySpark扩展了实时能力
机器学习 需Mahout等扩展 内置MLlib PySpark提供更丰富的ML工具

架构关系图

复制代码
+---------------------------------------------------+
|                 PySpark应用程序                   |
|   (Python代码通过Py4J调用Spark JVM核心)           |
+---------------------------------------------------+
            ↓
+---------------------------------------------------+
|                  Spark核心引擎                    |
|   (Spark SQL, Spark Streaming, MLlib, GraphX)     |
+---------------------------------------------------+
            ↓
+---------------------------------------------------+
|               集群资源管理器                       |
|   (YARN - Hadoop资源管理 或 Mesos/Standalone)     |
+---------------------------------------------------+
            ↓
+---------------------------------------------------+
|               存储系统                            |
|   (HDFS - Hadoop分布式文件系统 或其他存储系统)     |
+---------------------------------------------------+

典型使用场景

  1. Hadoop为主:PySpark作为计算引擎运行在Hadoop YARN上,处理HDFS中的数据
  2. Spark独立:PySpark使用自己的集群管理器,处理多种数据源
  3. 混合使用:利用Hadoop的HDFS存储数据,用PySpark进行高效计算

PySpark不是Hadoop的替代品,而是提供了更高效的计算层,可以与Hadoop生态系统协同工作。

YARN(Yet Another Resource Negotiator)详解

YARN是Hadoop生态系统中的核心资源管理和作业调度组件,全称为"Yet Another Resource Negotiator"(另一种资源协调者)。

概念

YARN是Hadoop 2.0引入的架构,将资源管理和作业调度/监控功能分离,解决了第一代Hadoop(MapReduce)中资源管理与计算框架紧耦合的问题。

核心功能

  1. 集群资源管理 :统一管理集群中的CPU、内存等计算资源
  2. 作业调度:协调多个应用程序共享集群资源
  3. 多框架支持:不仅支持MapReduce,还支持Spark、Tez等计算框架

架构组成

复制代码
+---------------------+
|     Client          |  # 提交应用程序
+---------------------+
         ↓
+---------------------+
|  ResourceManager(RM) |  # 集群资源总管
|  - Scheduler         |  # 资源调度
|  - ApplicationsManager| # 应用管理
+---------------------+
         ↓
+---------------------+
|  NodeManager(NM)    |  # 单个节点代理
|  - 管理容器(Container) |
|  - 监控资源使用      |
+---------------------+
         ↓
+---------------------+
|  ApplicationMaster  |  # 每个应用一个AM
|  - 申请资源         |
|  - 任务协调         |
+---------------------+

YARN与PySpark的关系

  • YARN为PySpark提供:

    • 资源隔离和分配
    • 多应用共享集群资源
    • 容错能力
    • 灵活的调度策略
相关推荐
小王毕业啦5 小时前
2005-2024年 省级-总抚养比、儿童抚养比、老年人抚养比数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
2501_927283586 小时前
荣联汇智助力天津艺虹打造“软硬一体”智慧工厂,全流程自动化引领印刷包装行业数智变革
大数据·运维·数据仓库·人工智能·低代码·自动化
还是奇怪7 小时前
AI 提示词工程入门:用好的语言与模型高效对话
大数据·人工智能·语言模型·自然语言处理·transformer
Data_Journal9 小时前
如何使用cURL更改User Agent
大数据·服务器·前端·javascript·数据库
weixin_446260859 小时前
城市智能化的底层基石:基于腾讯地图服务生态的移动定位与导航架构指引
大数据·人工智能·架构
qq_283720059 小时前
Vibe Coding 氛围编程入门教程:AI 时代的全新开发范式(零基础到实战)
大数据·人工智能
Volunteer Technology10 小时前
ES并发控制
大数据·elasticsearch·搜索引擎
小飞象—木兮11 小时前
《销售数据分析标准实践手册》:核心内涵与关键指标、落地销售数据分析的全流程···(附相关材料下载)
大数据·人工智能·数据挖掘·数据分析
howard200511 小时前
2.4.3 集群模式运行Spark项目
spark·项目打包·提交运行
KmSH8umpK11 小时前
Redis分布式锁从原生手写到Redisson高阶落地,附线上死锁复盘优化方案进阶第三篇
redis·分布式·wpf