spark

阶段性:

一、单机时代

特点:

1.硬件资源有限:单机系统的计算能力、存储容量和内存空间都受限于单台计算机的硬件配置。例如早期的个人电脑,通常只有几百兆的内存和几 GB 的硬盘空间。

2.数据处理能力有限:主要处理本地产生的小规模数据,数据量一般在 MB 级别到 GB 级别之间。如单机版的财务软件,只处理一个小型企业内部的少量财务数据。

3.应用场景简单:主要用于个人办公、简单的游戏娱乐或小型企业的基本业务处理,如文字处理、单机游戏、简单的库存管理等。

局限性:

1.无法处理大规模数据:随着业务的发展和数据量的增长,单机系统很快就会遇到存储和处理能力的瓶颈,无法应对海量数据的存储和分析需求。

2.可靠性和可用性较低:一旦单机出现故障,整个系统就会瘫痪,导致业务中断,数据也可能丢失,没有冗余机制来保证数据的安全和业务的连续性。

3.扩展性差:难以通过简单的方式增加计算和存储资源来满足不断增长的业务需求,升级硬件往往受到兼容性等多种因素的限制。

二、大数据时代-分布式处理

定义:是将一个大型的计算任务或数据处理任务分解成多个子任务,然后分配到多个计算节点(如多台服务器)上进行并行处理,最后将各个子任务的处理结果汇总得到最终结果的过程。

特点:提高处理能力:通过将任务分散到多个节点上并行计算,能够大大提高数据处理的速度和效率,从而可以在短时间内处理海量数据,满足大数据时代对数据处理的实时性和高效性要求。

三、实时大数据时代

hadoop慢因为它的计算结果保存在磁盘将其处理在spark中可解决计算慢的问题因为spark将计算结果保存在内存中

hadoop特点:1.高可靠性 2.高拓展性 3.高效性 4.高容错性

相关推荐
华农DrLai1 天前
Spark SQL Catalyst 优化器详解
大数据·hive·sql·flink·spark
uesowys1 天前
Apache Spark算法开发指导-One-vs-Rest classifier
人工智能·算法·spark
鹏说大数据2 天前
Spark 和 Hive 的关系与区别
大数据·hive·spark
B站计算机毕业设计超人2 天前
计算机毕业设计Hadoop+Spark+Hive招聘推荐系统 招聘大数据分析 大数据毕业设计(源码+文档+PPT+ 讲解)
大数据·hive·hadoop·python·spark·毕业设计·课程设计
B站计算机毕业设计超人2 天前
计算机毕业设计hadoop+spark+hive交通拥堵预测 交通流量预测 智慧城市交通大数据 交通客流量分析(源码+LW文档+PPT+讲解视频)
大数据·hive·hadoop·python·spark·毕业设计·课程设计
Lansonli2 天前
大数据Spark(八十):Action行动算子fold和aggregate使用案例
大数据·分布式·spark
鸿乃江边鸟3 天前
Spark Datafusion Comet 向量化Rust Native--CometShuffleExchangeExec怎么控制读写
大数据·rust·spark·native
伟大的大威4 天前
NVIDIA DGX Spark (ARM64/Blackwell) Kubernetes 集群 + GPU Operator 完整部署指南
大数据·spark·kubernetes
小邓睡不饱耶4 天前
深度实战:Spark GraphX构建用户信任网络,精准锁定高价值目标用户(含完整案例)
大数据·spark·php
B站计算机毕业设计超人4 天前
计算机毕业设计hadoop+spark+hive共享单车预测系统 共享单车数据可视化分析 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·hadoop·python·深度学习·spark·毕业设计·课程设计