Introducing Apache Spark and PySpark

1.Apache Spark Component

  • Spark SQL and DataFrames + Datasets

A module for working with structured data.

  • MLlib

A scalable machine learning library.

  • Structured Streaming

This makes it easy to build scalable fault-tolerant streaming applications.

  • GraphX (legacy)

GraphX is Apache Spark's library for graphs and graph-parallel computation.However, for graph analytics, GraphFrames is recommended instead of GraphX,which isn't being actively developed as much and lacks Python bindings. GraphFrames is an open source general graph processing library that is similar to Apache Spark's GraphX but uses DataFrame-based APIs.

2.Spark Versus PySpark Versus SparkSQL

3.AWS EMR, Azure Databricks, GCP Dataproc

4.PySpark Addresses Challenges of Data Science

倘若您觉得我写的好,那么请您动动你的小手粉一下我,你的小小鼓励会带来更大的动力。Thanks.

相关推荐
老周聊架构34 分钟前
聊聊Flink:这次把Flink的window分类(滚动、滑动、会话、全局)、窗口函数讲透
大数据·flink
一條狗1 小时前
随笔20241126 Kafka 消费者的自动提交与手动提交偏移量详解
分布式·kafka
运维&陈同学1 小时前
【kafka01】消息队列与微服务之Kafka详解
运维·分布式·后端·微服务·云原生·容器·架构·kafka
楚疏笃1 小时前
鸿蒙学习自由流转与分布式运行环境-跨端迁移(2)
分布式·学习·harmonyos
新加坡内哥谈技术2 小时前
RAG架构类型
大数据·人工智能·语言模型·chatgpt
泰迪智能科技012 小时前
2024年工信部大数据分析师证书报考条件是怎样的?有什么用
大数据·信息可视化
SAP学习成长之路3 小时前
SAP 零售方案 CAR 系统的介绍与研究
大数据·开发语言·sap·abap·零售·car·bapi
哼了个哈3 小时前
daos源码编译
分布式
Lostgreen3 小时前
分布式查询处理优化之数据分片
大数据·笔记·分布式
gogo_hua3 小时前
JVM系列之OOM观测准备
java·大数据·jvm