目录

Introducing Apache Spark and PySpark

1.Apache Spark Component

  • Spark SQL and DataFrames + Datasets

A module for working with structured data.

  • MLlib

A scalable machine learning library.

  • Structured Streaming

This makes it easy to build scalable fault-tolerant streaming applications.

  • GraphX (legacy)

GraphX is Apache Spark's library for graphs and graph-parallel computation.However, for graph analytics, GraphFrames is recommended instead of GraphX,which isn't being actively developed as much and lacks Python bindings. GraphFrames is an open source general graph processing library that is similar to Apache Spark's GraphX but uses DataFrame-based APIs.

2.Spark Versus PySpark Versus SparkSQL

3.AWS EMR, Azure Databricks, GCP Dataproc

4.PySpark Addresses Challenges of Data Science

倘若您觉得我写的好,那么请您动动你的小手粉一下我,你的小小鼓励会带来更大的动力。Thanks.

本文是转载文章,点击查看原文
如有侵权,请联系 xyy@jishuzhan.net 删除
相关推荐
Made in Program1 小时前
从数据格式转换的角度 flink cdc 如何写入paimon?
大数据·flink·paimon
杰克逊的日记1 小时前
kafka的topic扩容分区会对topic任务有什么影响么
分布式·kafka
渲染101专业云渲染2 小时前
Lumion 与 Enscape 怎么选?附川翔云电脑适配指南
服务器·分布式·电脑·blender·houdini
jzy37112 小时前
Hive疑难杂症全攻克:从分隔符配置到权限避坑实战指南
大数据·apache hive
Elastic 中国社区官方博客2 小时前
Elasticsearch:加快 HNSW 图的合并速度
大数据·数据库·人工智能·elasticsearch·搜索引擎·ai·全文检索
syounger2 小时前
宝马集团加速 ERP 转型和上云之旅
大数据·人工智能
EasyNTS3 小时前
ONVIF/RTSP/RTMP协议EasyCVR视频汇聚平台RTMP协议配置全攻略 | 直播推流实战教程
大数据·网络·人工智能·音视频
Apache Flink3 小时前
Lalamove基于Flink实时湖仓演进之路
大数据·flink
范桂飓3 小时前
案例分析:东华新径,拉动式生产的智造之路
大数据·人工智能
IT成长日记3 小时前
【Kafka基础】监控与维护:动态配置管理,灵活调整集群行为
分布式·kafka·动态配置管理