Introducing Apache Spark and PySpark

1.Apache Spark Component

  • Spark SQL and DataFrames + Datasets

A module for working with structured data.

  • MLlib

A scalable machine learning library.

  • Structured Streaming

This makes it easy to build scalable fault-tolerant streaming applications.

  • GraphX (legacy)

GraphX is Apache Spark's library for graphs and graph-parallel computation.However, for graph analytics, GraphFrames is recommended instead of GraphX,which isn't being actively developed as much and lacks Python bindings. GraphFrames is an open source general graph processing library that is similar to Apache Spark's GraphX but uses DataFrame-based APIs.

2.Spark Versus PySpark Versus SparkSQL

3.AWS EMR, Azure Databricks, GCP Dataproc

4.PySpark Addresses Challenges of Data Science

倘若您觉得我写的好,那么请您动动你的小手粉一下我,你的小小鼓励会带来更大的动力。Thanks.

相关推荐
言之。5 分钟前
TiDB分布式数据库技术架构概述
数据库·分布式·tidb
老夫的码又出BUG了25 分钟前
分布式Web应用场景下存在的Session问题
前端·分布式·后端
杂家26 分钟前
Hadoop完全分布式部署(超详细)
大数据·hadoop·分布式
BD_Marathon27 分钟前
【Hadoop】hadoop3.3.1完全分布式配置
大数据·hadoop·分布式
Ryan ZX1 小时前
etcd 高可用分布式键值存储
数据库·分布式·etcd
大G的笔记本1 小时前
分布式答案解析
分布式
Ashlee_code1 小时前
BSS供应商:电信与金融领域的幕后支撑者
大数据·网络·金融·系统架构·跨境·金融机构·场外期权
Tadas-Gao2 小时前
MySQL存储架构解析:从数据无序到索引艺术的演进
数据库·分布式·mysql·微服务·云原生·架构
鸽鸽程序猿2 小时前
【RabbitMQ】工作模式实现
分布式·rabbitmq
筑梦之人3 小时前
Spark-3.5.7文档3 - Spark SQL、DataFrame 和 Dataset 指南
spark